海外文献推荐(第62号):用CART决策树选股[天丰金工吴贤星团队]

使用CART决策树进行股票选择的文献来源:Erich。索伦森,凯瑟尔。米勒和奇克。OOI,2000,决策支持系统(TheDecisionApproachachTockSelection),TheJourNalforFolioManagement,42-52推荐理由:机器学习在金融领域有着非常广泛的应用,本文将CART决策树算法应用于股票选择模型。

与传统的线性模型或判别分析相比,决策树模型具有能够解释模型中非线性关系和变量间相互依赖的优点。

本文以罗素1000指数科技板块的选股为例,展示了CART决策树模型在横截面选股中的应用。与简单的指数选择相比,动态CART决策树模型表现出更高的多空收益率和夏普比率。

量化投资的一种常见方法是将可投资股票的样本缩减为一组具有特定特征的股票。投资经理通常使用多种筛选方法来实现他们的目标。

尽管大多数投资经理并不完全基于最优化和数学方法来定量选择股票,但许多人使用定量方法来选择股票。

其中,用于筛选的股票特征包括股票估值、利润表现、流动性、动量和投资风格。

筛选方法很有用,但不是一种完全科学的方法。

例如,一些股票完全符合其他筛选特征,但它们将被排除在投资组合之外,因为它们不符合某些筛选特征。

相反,多变量评分法最终根据给予不同因素的评分权重获得每只股票的排名,但是一些股票可能被包括或排除在组合之外,因为一个指数具有非常高的权重,而其他指数可能仅被赋予非常低的权重。

因此,多变量评分系统并不完善。

本文将CART决策树算法应用于横截面选股,并在此基础上构建了选股模型。

与传统的线性选股模型或判别分析相比,本文提出的CART决策树模型决定了筛选因素的水平和相互作用。

应该在动量因子之前使用估值因子,还是应该以相反的顺序进行?估价因素如何与其他因素相互作用?作者使用CART决策树选择科技类股,并解释了这些深层思考的重要性。

两棵树和递归分类CART代表分类树和回归树。这种统计方法是递归分类算法(RPA)的具体实现。

顾名思义,分类技术将观测样本分为两个或更多类别,最终目标是预测。

例如,我们希望预测一辆汽车能以多快的速度通过它的外观。我们可以收集许多汽车的特性,并根据它们的速度从高到低排列它们。

这些数据可能包括汽车的颜色、尺寸和轮胎宽度。

首先,直觉上,我们可以试着根据汽车的大小来分类(汽车通常比大汽车跑得快);然而,更好的模型可能首先根据汽车轮胎的宽度进行分类,然后考虑汽车的尺寸。

轮胎大的汽车将被列为最快的。

Breimanetal在1984年提出了CART算法。最初的应用主要是在医学预测领域。后来,该算法被应用于金融建模领域,但通常用于解决时间序列问题。

例如,KaoandHumaker(1999)估计时间序列来区分成长型股票和价值型股票的收益。

CART决策树的优点是可以确定各种因素之间的非线性层次,最终优化排序结构。

通过二进制分类树估计层次关系,并结合最终生成条件来降低数据维数,提高预测精度。

更有效的是,决策树通常指导我们根据一系列“如果-那么”标准来寻找最佳决策,这优于变量被允许承担更高优先级并且也运行以与其他变量交互的级别,因此变量可以在不同的条件下使用不同的影响。

CART算法不是黑盒。在多元线性模型和判别分析中,所有输入变量和目标变量都与我们的变量相当。

模型中变量的选择应该是逻辑的和理想的,这与传统的统计模型是一致的。

然而,在传统的线性模型中,最终方程要求所有因变量都是独立的、可加的,并且在所有周期中都具有相同的系数。

线性假设显然是有限的。

例如,当首先以经济状况(以长期债券收益率减去短期债券收益率来衡量)为条件时,S&P 500指数的市场时间树表明,股票市场的相对价值对S&P 500指数的未来实现有更显著的影响。

首先考虑当前宏观经济环境,然后考虑当前相对价值的模型明显优于那些简单地将这两个变量视为独立变量的模型。

下图举例说明了一个简单的例子。作者给出了不同信用利差情景下S&P 500指数收益率与债券收益率之间的线性关系。

从下图可以明显看出,当信用利差最大时(分位数4,右上角),陡峭的债券收益率曲线通常会导致S&P 500指数表现更好。

在信贷利差的其他情况下,两者之间的关系并不明显。

考虑到这种情况,我们发现了一个容易被线性模型忽略的隐藏关系。

将数据分类为估计值时,使用离散分类来表示自变量和因变量是有效的初始步骤。

分类树模型的输出是一个二进制分类树,它给因变量的分类提供不同的概率,因变量可以根据第10或第5百分位来赋值。

例如,我们需要对小市值溢价显著的情况进行建模,然后根据市值溢价情况将数据分为3组:1)表现相似;2)市场价值大,表现良好;3)小市值表现良好。

类似的方法在描述独立变量时也很有用。例如,根据市场情绪,它们可以分为三种类型:1)高波动性;2)正常波动;3)波动小。

在确定树的结构时,CART决策树使用数学算法来确定变量和相应的分类阈值。

可变阈值的选择将样本分成最同质的两组,这决定了树的顶层,并给出了根据标准将样本分成两组的结果。

例如,如果市场波动是最重要的输入变量,我们首先需要找出波动的阈值,这可以最好地解释大盘股和小盘股之间的回报差异。

一旦在树的顶部进行了第一次分割,随后的递归分割将保持树的高阶结构并提高分类效果。

将递归分类算法如45CART算法应用于横截面数据的效果来自:1 .第二级树形结构直觉。数据非线性的解释3。解释变量4之间的相互依赖关系。给出结果的条件概率输出。

CART算法非常适合解决股票选择等横截面问题。

根据时间将股票数据分成多个区间,然后我们的估计模型是横截面的。

作者描述了在技术领域中获胜股票组合和失败股票组合的树形结构。

作者利用罗素1000指数(Russell 1000 index)自1992年以来的数据,计算了科技板块的股票收益率,每个时期科技板块的股票数量从70支到110支不等。

使用这些股票的月回报,可以获得代表股票相对表现的因变量。

最终目标是建立一个稳定的模型来区分赢家和输家,其中要区分的独立变量来自合理的股票或上市公司特征。

科技股作为一个整体进行分析的原因是什么?显然,将表现出共性的股票分组会提高我们找到重要关系的能力。不同行业的因素对股票收益的解释力各不相同。风格表现分析表明,不同股票群体之间相对收益的驱动因素存在显著差异。

例如,在技术领域,盈余动量对股票表现的预测能力强于估值,而在金融类股,相反的估值指数具有更重要的预测能力。

一种分组方法是根据回报率的相关性对股票进行分组。我们可以根据股票的历史回报率对股票进行分类。另一种分组方法是主观主题分类、利润S&P或罗素的行业分类。

作者根据罗素的技术部门提取科技股。其他部门包括医疗保健、选择性消费、必要消费、金融服务、石油等。

7输入变量本文首先计算了1992年至1997年所有股票的月收益率。其次,它减去这一时期所有股票的收益率中值,得到超额收益率,这使得将每只股票分为两组成为可能:高于平均水平和低于平均水平。

目标很简单:将表现高于平均水平的股票和表现低于平均水平的股票区分开来,也就是说,因变量是平均分割样本的二元变量。

每个观察值对应于某个特定月份某只股票的回报率,因此一半的样本被标记为高于平均水平,而另一半被标记为低于平均水平。

本文选择了一小组独立变量。这些变量来自投资经理常用的因素集,包括估值、利润、分析师预期、价格动量等。

所选的六个变量对股票收益率有一定的解释力。

关键考虑因素是对每个因素的描述。在计算每个指数和动量因子后,每个变量每月被分成5组,以提供更稳定的估计结构。

因为如果使用更精细的数据,如连续变量,最终的树结构可能会产生过度拟合。

过度拟合的结果是错误的。一方面,它对历史表现出较强的解释力;另一方面,由于过度拟合,它在任何地方都缺乏预测能力。

此外,过度拟合也将导致树结构的最终逻辑解释。

8技术股票选择模型:静态树(Static Tree)本文估算技术部门股票选择模型的第一种方法是假设股票相对表现和输入变量之间稳定互动的简化版本。

在这个模型中,作者的水世界分为两组:1)从1993年到1995年;2)1996-1999年。

第一组用作样本内的训练集来估计模型,第二组用作样本外的测试集来验证模型样本的性能。

样本外测试评估模型的最终预测能力。同时,由于整个样本中只有一个树模型,作者将该模型定义为静态树方法。

由于本文将每个变量分为5组,因此有4种可能的划分:1)第1组和第2组之间的划分;2)在组2和组3之间划分;3)在第3组和第4组之间划分;4)分成第4组和第5组。

如上图所示,树顶部的第一个变量是EPS-MOM。该模型首先根据每股收益模型(EPS-MOM)将样本分成两组:分析师利润估计修正值最高的两组与分析师利润估计修正值最低的三组。

递归分类算法将基于该分类在第二级对树的右分支进行分类。

在树的右侧,RPA算法继续根据ROA动量指数以1.5为阈值对样本进行分类。

如果该股在收益修正指数中处于前两组,它下个月的表现可能会更好。

此外,如果该股在收益修正指数中处于最高的两组,并且在ROA动量中处于最高的四组,那么它下个月的表现将更有可能超过平均水平。

上述分析在逻辑上是令人满意的,因为市场可以将基本面改善的公司(ROA增长率高)与分析师乐观的股票区分开来。

CART决策树证实了我们的直觉,并且比简单的线性筛选具有更丰富的特性。

最终生成的树模型非常简单。每个股票每个月都有对应于树节点的特征。每个股票根据节点特征进入下一级分类。

预测业绩高于平均水平的按月记录为多头组合和等重保持组合,预测业绩低于平均水平的按空多头组合和等重保持组合记录。

左下角数字显示多头投资组合和多头空投资组合的月度超额收益率,右图显示多头空投资组合和整个样本的净值表现。

可以发现,多头组合可以明显优于空多头组合,多头空组合的年回报率达到13.92%。t检验和WILCOXON秩检验的结果都表明多重空超额收益率具有统计学意义。

multi 空投资组合的月平均超额空头投资组合为1.40%,收益率差在5%显著性水平上不同于0。

9科技股选股模型:上述静态树模型证明了树结构的稳定性。从1992年到1995年估计的树结构对1996年到1999年的未来几年仍有预测能力。

与静态模型相比,作者发现每月重新估计树结构可以提供更高的样本外预测能力。

本文中的第二种方法是每月使用所有以前的信息来重新评估树结构。

1995年12月1993年1月至1995年12月的数据被用于训练树结构,然后树模型被用于1996年1月的股票分类。

对于随后的每个月,最新的样本将被添加到训练集中以估计树结构,并且最终的预测将根据最新的树模型获得。

显然,这种动态方法每个月可以获得不同的树模型。因为只有最新的样本被添加到训练集中,所以树结构在短期内是稳定的,几个月之间只有微小的变化。然而,从长远来看,模型的树结构发生了显著变化。与1996年相比,1999年6月的树木结构肯定发生了重大变化。

因此,作者称这项技术为“进化树”。

进化树方法有许多优点。

首先,树估计过程需要大量的数据来保证统计显著性,在进化树模式下,更多的数据将用于树结构估计。

其次,模型的连续演化在逻辑上也更有意义。它允许模型的逐渐变化,并引导市场和企业的变化进入模型。

下图显示了动态模型的样本外性能。与空多头投资组合相比,多头投资组合具有显著的超额回报。投资组合的T检验T值为3.25,WILCOXON秩检验Z值为4.10,P小于0.01,每月多空收益率为1.47%,与0显著不同。

10绩效评估决策树模型与简单的股票选择或排名相比如何?为了回答这个问题,作者比较了各种筛选策略并评价了它们的性能。下图显示了不同型号的性能。

作者利用每股收益最小均方误差模型(EPS-MOM)、资产收益率模型(ROA)和资本流动价格模型(CFLOW-PRICE)构建了三个单因素模型,并利用这三个指标的均值构建了一个多因素模型。作者比较了两种树模型和这些模型的性能。

从下图所示的结果来看,两个CART决策树模型的夏普比率明显高于单因素排序模型。除了每股收益最大化指数外,用单一指数筛选的其他多头投资组合的超额收益并不显著。

在所有模型中,进化决策树具有最高的夏普比率和T统计量。

密切关注我们的风险提示:本报告内容基于相关文件,不构成投资建议。

发表评论

电子邮件地址不会被公开。 必填项已用*标注