超越80/20法则:高熵少数词元驱动LLM推理的有效强化学习Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective
Reinforcement Learning for LLM Reasoning
可驗證獎勵的強化學習(RLVR)已成為提升大型語言模型(LLMs)推理能力的一種強大方法,但其機制尚未被充分理解。在本研究中,我們從詞元熵模式的新視角對RLVR進行了開創性探索,全面分析了不同詞元如何影響推理性能。通過檢視鏈式思維(CoT)推理中的詞元熵模式,我們觀察到僅有少部分詞元表現出高熵,這些詞元作為關鍵的分岔點,引導模型走向多樣的推理路徑。此外,研究RLVR訓練過程中熵模式的演變發現,RLVR在很大程度上遵循基礎模型的熵模式,主要調整高熵詞元的熵值。這些發現凸顯了高熵詞元(即分岔詞元)對RLVR的重要性。我們最終通過限制策略梯度更新僅作用於分岔詞元來改進RLVR,並揭示了一個超越80/20法則的發現:僅使用20%的詞元,在Qwen3-8B基礎模型上保持與全梯度更新相當的性能,並在Qwen3-32B(AIME'25上+11.04,AIME'24上+7.71)和Qwen3-14B(AIME'25上+4.79,AIME'24上+5.21)基礎模型上顯著超越全梯度更新,展現出強烈的擴展趨勢。相比之下,僅對80%最低熵詞元進行訓練則導致性能顯著下降。這些發現表明,RLVR的有效性主要源於優化決定推理方向的高熵詞元。總體而言,我們的結果強調了通過詞元熵視角理解RLVR的潛力,並利用高熵少數詞元來優化RLVR,從而進一步提升LLM的推理能力。