量化策略的过度拟合与过度优化

过度拟合(overfitting)是统计学、机器学习中的概念，即模型与参数过度地拟合了样本内的数据，或许把很多噪音数据也拟合了，而这些并不能反映数据总体的本质特征，以至于在样本外的数据中拟合效果很差；实际上optimization翻译成中文是“最优化”，要么最大要么最小，既然目标是“最”了，何来过度一说？其实他本质上也是过度拟合的另一种表述，但很多量化策略的研究框架缺乏拟合的目标函数，所以不存在“过度拟合”一说，为了表达类似的意思，就采用了“过度优化”一词。

解决过度拟合的方法是正则化（regularization）或收缩化（shrinkage），本质上是限制参数优化的范围，使之不能完全拟合样本内的数据，牺牲样本内的拟合精度，换取样本外的拟合精度。比如图像处理也有低通滤波和高通滤波，一幅图像有整体轮廓以及细节纹理，整体轮廓具有普适性，细节纹理则每幅图差异很大。如果一个图像识别算法能更好地捕捉整体轮廓，牺牲对细枝末节的识别，则在样本外的测试中或许可以表现更好一些。

一般量化策略的过度优化是指先采取一定的标准，在样本内选取“最好”的策略，但这些策略在样本外表现不好。一般这个领域有一些专有名词，比如“参数高原”之类的，正规的统计、机器学习是没有的。

过度拟合产生的原因包括：

l 数据分布改变。金融数据是非平稳时间序列，波动时大时小；另外之前没有夜盘现在有了夜盘，夜盘时间也有所改变；还有就是最小买卖价差和手续费的调整也会有影响；另外，如果把太大量分布不同的数据放在一起训练也未必能得到好的结果。

l 因子预测能力变弱。有些因子在样本内跟预测对象正相关，到了样本外突然变成负相关。比如有时候小盘股更好，有时候大盘股更好，单纯的市值因子不够稳定；

l 正则化使用不当。正则化太强会弱化模型，即使样本外预测准确，但也未必能盈利，这是欠拟合；如果正则化太弱，样本外则很可能亏钱，这是过度拟合。

数据分析是一门极度依赖经验的学科，如何调整参数技巧性极强，有时也未必有很靠谱的理由。这跟工科比较像，工程师很多工作也高度依赖经验，科学家才讲道理，有时候也未必学历高就能解决问题。

举个例子。比如我老家的旧电视，显示有问题，我怎么按都不行，但我10岁的小堂弟却能打的开，他总结了一条规律——右边第二个键按3下，右边第一个键按4下，就能开了；我试了确实可以，虽然这没有什么道理，但试了几年都可以，我也不知道什么时候突然就不行了。这算不算过度拟合？

发布于 2017-05-10 14:59
https://zhuanlan.zhihu.com/p/26823648

“过度拟合”如何影响投资策略https://wallstreetcn.com/member/articles/3351166

发送评论 编辑评论

发送评论编辑评论