量化策略的过度拟合与过度优化

过度拟合(overfitting)是统计学、机器学习中的概念,即模型与参数过度地拟合了样本内的数据,或许把很多噪音数据也拟合了,而这些并不能反映数据总体的本质特征,以至于在样本外的数据中拟合效果很差;实际上optimization翻译成中文是“最优化”,要么最大要么最小,既然目标是“最”了,何来过度一说?其实他本质上也是过度拟合的另一种表述,但很多量化策略的研究框架缺乏拟合的目标函数,所以不存在“过度拟合”一说,为了表达类似的意思,就采用了“过度优化”一词。

解决过度拟合的方法是正则化(regularization)或收缩化(shrinkage),本质上是限制参数优化的范围,使之不能完全拟合样本内的数据,牺牲样本内的拟合精度,换取样本外的拟合精度。比如图像处理也有低通滤波和高通滤波,一幅图像有整体轮廓以及细节纹理,整体轮廓具有普适性,细节纹理则每幅图差异很大。如果一个图像识别算法能更好地捕捉整体轮廓,牺牲对细枝末节的识别,则在样本外的测试中或许可以表现更好一些。

一般量化策略的过度优化是指先采取一定的标准,在样本内选取“最好”的策略,但这些策略在样本外表现不好。一般这个领域有一些专有名词,比如“参数高原”之类的,正规的统计、机器学习是没有的。

过度拟合产生的原因包括:

数据分布改变。金融数据是非平稳时间序列,波动时大时小;另外之前没有夜盘现在有了夜盘,夜盘时间也有所改变;还有就是最小买卖价差和手续费的调整也会有影响;另外,如果把太大量分布不同的数据放在一起训练也未必能得到好的结果。

因子预测能力变弱。有些因子在样本内跟预测对象正相关,到了样本外突然变成负相关。比如有时候小盘股更好,有时候大盘股更好,单纯的市值因子不够稳定;

正则化使用不当。正则化太强会弱化模型,即使样本外预测准确,但也未必能盈利,这是欠拟合;如果正则化太弱,样本外则很可能亏钱,这是过度拟合。

数据分析是一门极度依赖经验的学科,如何调整参数技巧性极强,有时也未必有很靠谱的理由。这跟工科比较像,工程师很多工作也高度依赖经验,科学家才讲道理,有时候也未必学历高就能解决问题。

举个例子。比如我老家的旧电视,显示有问题,我怎么按都不行,但我10岁的小堂弟却能打的开,他总结了一条规律——右边第二个键按3下,右边第一个键按4下,就能开了;我试了确实可以,虽然这没有什么道理,但试了几年都可以,我也不知道什么时候突然就不行了。这算不算过度拟合?


发布于 2017-05-10 14:59
https://zhuanlan.zhihu.com/p/26823648

“过度拟合”如何影响投资策略https://wallstreetcn.com/member/articles/3351166

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇