强化学习的熵机制在推理语言模型中的应用The Entropy Mechanism of Reinforcement Learning for Reasoning Language
Models
本文旨在解决在利用大型语言模型(LLMs)进行推理时,强化学习(RL)扩展过程中的一个主要障碍——策略熵的崩溃现象。这一现象在未进行熵干预的大量RL实验中普遍存在,表现为策略熵在训练初期急剧下降,随之而来的是探索能力的减弱与策略性能的饱和。实践中,我们建立了熵H与下游性能R之间的转换方程R=-a*e^H+b。这一经验法则强烈表明,策略性能是以策略熵为代价换取的,因此受限于熵的耗尽,且其上限完全可预测为H=0时,R=-a+b。我们的发现强调了在RL计算扩展过程中,为持续探索而进行熵管理的必要性。为此,我们从理论与实证两方面探讨了熵动态。理论推导指出,策略熵的变化由动作概率与对数几率变化之间的协方差驱动,该协方差在使用类似策略梯度算法时与其优势成正比。实证研究显示,协方差项与熵差异值精确匹配,支持了理论结论。此外,协方差项在整个训练过程中大多保持正值,进一步解释了为何策略熵会单调下降。通过理解熵动态背后的机制,我们提出了通过限制高协方差标记的更新来控制熵的方法。具体而言,我们提出了两种简单而有效的技术:Clip-Cov和KL-Cov,分别对高协方差标记进行裁剪和施加KL惩罚。实验表明,这些方法促进了探索,帮助策略逃离熵崩溃,从而实现了更好的下游性能。