超越二八定律:高熵少数词元驱动大语言模型推理的有效强化学习Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective
Reinforcement Learning for LLM Reasoning
基于可验证奖励的强化学习(RLVR)已成为提升大型语言模型(LLMs)推理能力的一种强大方法,但其机制尚未得到充分理解。本研究首次从标记熵模式的新视角对RLVR进行了开创性探索,全面分析了不同标记如何影响推理性能。通过考察链式思维(CoT)推理中的标记熵模式,我们发现仅有少量标记表现出高熵特性,这些标记作为关键分岔点,引导模型走向多样化的推理路径。进一步研究RLVR训练过程中熵模式的演变表明,RLVR在很大程度上遵循基础模型的熵模式,主要调整高熵标记的熵值。这些发现凸显了高熵标记(即分岔标记)对RLVR的重要性。我们最终通过将策略梯度更新限制在分岔标记上改进了RLVR,并揭示了一个超越80/20法则的发现:仅使用20%的标记,在Qwen3-8B基础模型上即可保持与全梯度更新相当的性能,并在Qwen3-32B(AIME'25上+11.04,AIME'24上+7.71)和Qwen3-14B(AIME'25上+4.79,AIME'24上+5.21)基础模型上显著超越全梯度更新,显示出强烈的扩展趋势。相比之下,仅对80%最低熵标记进行训练则导致性能显著下降。这些结果表明,RLVR的有效性主要源于优化决定推理方向的高熵标记。总体而言,我们的研究结果强调了通过标记熵视角理解RLVR的潜力,并利用高熵少数标记优化RLVR,从而进一步提升LLM的推理能力。