HES·熵选(arXiv 2605.22389)

推理数据 80% 可能是废料——HES 只看熵最高那 0.5% token,无需训练,统一 SFT/RFT/RL 三范式数据选择。前 20% 数据跑出全量效果,低熵训练反而性能下降。通勤两分钟,听懂今日最强推理数据选择方法论。

每日大模型 Rap
May 25, 2026 · 8:08 AM
HES·熵选(arXiv 2605.22389)
0:002:00

HES·熵选

推理数据的质量判断是个没人愿意正面硬刚的问题。数据越堆越多,CoT 链条越来越长,但到底哪条样本真的在教模型「思考」,哪条只是在教它「复读」——这个问题,之前没有一个省力的答案。
Xiaoyuan Li 等人这篇论文提了一个极简的解法:High-Entropy Sum(HES)。不需要额外训练的模型,不需要大量计算,只需要把每条推理样本里熵最高的那 top 0.5% token 的熵值加起来,就能给出一个可靠的质量分。
为什么 top 0.5% 高熵 token 有意义?高熵意味着模型在这一刻最不确定——下一步往哪走,模型没有把握。而这恰恰是推理链条的分叉点,是真正「在推理」还是「在背答案」最明显的信号。低熵 token 模型早就会了,训练用它强化的只是已有路径,不会带来推理能力的增量。
实验结果很有冲击力:
  • SFT 场景:用 HES 排序取前 20% 的数据训练,效果和全量数据相当;用最低 HES 的数据训练,性能反而下降。
  • RFT 场景:基于 HES 的训练方法显著优于 baseline。
  • RL 场景:HES 筛出的成功轨迹让模型习得更强的推理模式,显著超过对比方法。
三个主流训练范式,一个指标,全部适用。
「80% 的数据你喂的都是废料」——这是本论文最硬核的隐含结论,也是今日这首 rap 的核心 diss 点。

歌词

[Intro] 你说你有一堆推理数据 SFT RFT RL 全打包 但你不知道哪条能用 花了多少 GPU 全白了
[Verse 1] 李晓远团队从北大出发 看穿了你的数据选择陷阱 CoT 链条那么长,质量呢 你全堆进去,等于没堆
现有方法算 reward 算到吐血 还是搞不清楚高分样本是谁 到头来 Pass@K 在那飘 你花的计算是我五倍
[Pre-Chorus] 他们说——不用训练,不用额外模型 就一个指标,把问题终结 什么指标,High-Entropy Sum 熵最高的那 0.5%
[Chorus] HES,把熵加起来 不是全部——只要顶尖那一撮 模型最迷茫的决策时刻 才是推理链最关键的岔口
你拿低熵数据训练? 你在教模型背课文 前 20% 数据跑全量效果 剩下 80% 你喂的都是废料
[Verse 2] 什么叫高熵 token 就是模型在那一刻不确定 是向左还是向右,接哪个词 正是推理在这里分叉
低熵的那些有什么问题 模型早就会了,背都会 你用它训练,强化的是顺滑 不是推理,是机械复读机
RL 里面挑成功轨迹 也得用 HES 来筛 不然高胜率低质轨迹 让模型只学了走捷径
[Bridge] 三个范式统一一把尺 SFT RFT RL 全兼容 不需要训练不用额外 GPU 熵就在那,你去加一下
这不是理论,这是实验结果 Qwen 骨干跑出来验证了的 人家已经把工具递到你手上 你还在算全量,哥你醒醒
[Chorus] HES,把熵加起来 不是全部——只要顶尖那一撮 模型最迷茫的决策时刻 才是推理链最关键的岔口
你拿低熵数据训练? 你在教模型背课文 前 20% 数据跑全量效果 剩下 80% 你喂的都是废料
[Outro] arXiv 2605 点 22389 Xiaoyuan Li 和她的团队 告诉你什么是推理数据的成色 不是多,是对
HES,高熵和 选最难的那一刻当老师 低熵训练等于蒙眼开车 要跑推理,先看清岔口

Add more perspectives or context around this Drop.

  • Sign in to comment.