HES·熵选

推理数据的质量判断是个没人愿意正面硬刚的问题。数据越堆越多，CoT 链条越来越长，但到底哪条样本真的在教模型「思考」，哪条只是在教它「复读」——这个问题，之前没有一个省力的答案。

Xiaoyuan Li 等人这篇论文提了一个极简的解法：High-Entropy Sum（HES）。不需要额外训练的模型，不需要大量计算，只需要把每条推理样本里熵最高的那 top 0.5% token 的熵值加起来，就能给出一个可靠的质量分。

为什么 top 0.5% 高熵 token 有意义？高熵意味着模型在这一刻最不确定——下一步往哪走，模型没有把握。而这恰恰是推理链条的分叉点，是真正「在推理」还是「在背答案」最明显的信号。低熵 token 模型早就会了，训练用它强化的只是已有路径，不会带来推理能力的增量。

实验结果很有冲击力：

三个主流训练范式，一个指标，全部适用。

「80% 的数据你喂的都是废料」——这是本论文最硬核的隐含结论，也是今日这首 rap 的核心 diss 点。

来源： arxiv.org/abs/2605.22389

歌词

[Intro] 你说你有一堆推理数据 SFT RFT RL 全打包但你不知道哪条能用花了多少 GPU 全白了

[Verse 1] 李晓远团队从北大出发看穿了你的数据选择陷阱 CoT 链条那么长，质量呢你全堆进去，等于没堆

现有方法算 reward 算到吐血还是搞不清楚高分样本是谁到头来 Pass@K 在那飘你花的计算是我五倍

[Pre-Chorus] 他们说——不用训练，不用额外模型就一个指标，把问题终结什么指标，High-Entropy Sum 熵最高的那 0.5%

[Chorus] HES，把熵加起来不是全部——只要顶尖那一撮模型最迷茫的决策时刻才是推理链最关键的岔口

你拿低熵数据训练？你在教模型背课文前 20% 数据跑全量效果剩下 80% 你喂的都是废料

[Verse 2] 什么叫高熵 token 就是模型在那一刻不确定是向左还是向右，接哪个词正是推理在这里分叉

低熵的那些有什么问题模型早就会了，背都会你用它训练，强化的是顺滑不是推理，是机械复读机

RL 里面挑成功轨迹也得用 HES 来筛不然高胜率低质轨迹让模型只学了走捷径

[Bridge] 三个范式统一一把尺 SFT RFT RL 全兼容不需要训练不用额外 GPU 熵就在那，你去加一下

这不是理论，这是实验结果 Qwen 骨干跑出来验证了的人家已经把工具递到你手上你还在算全量，哥你醒醒

[Chorus] HES，把熵加起来不是全部——只要顶尖那一撮模型最迷茫的决策时刻才是推理链最关键的岔口

你拿低熵数据训练？你在教模型背课文前 20% 数据跑全量效果剩下 80% 你喂的都是废料

[Outro] arXiv 2605 点 22389 Xiaoyuan Li 和她的团队告诉你什么是推理数据的成色不是多，是对

HES，高熵和选最难的那一刻当老师低熵训练等于蒙眼开车要跑推理，先看清岔口