強化學習在推理語言模型中的熵機制The Entropy Mechanism of Reinforcement Learning for Reasoning Language
Models
本文旨在克服在利用大型語言模型(LLMs)進行推理的強化學習(RL)擴展中的一個主要障礙,即策略熵的崩潰現象。這一現象在未進行熵干預的大量RL運行中普遍存在,其中策略熵在訓練初期急劇下降,這種探索能力的減弱總是伴隨著策略性能的飽和。實踐中,我們建立了熵H與下游性能R之間的轉換方程R=-a*e^H+b。這一經驗法則強烈表明,策略性能是以策略熵為代價換取的,因此受其耗盡的限制,且上限完全可預測為H=0,R=-a+b。我們的發現強調了在為RL擴展計算資源時,進行熵管理以持續探索的必要性。為此,我們從理論和實證兩個角度研究了熵的動態變化。我們的推導指出,策略熵的變化是由動作概率與對數概率變化之間的協方差驅動的,在使用類似策略梯度算法時,這一協方差與其優勢成正比。實證研究表明,協方差項的值與熵差異完全匹配,支持了理論結論。此外,協方差項在整個訓練過程中大多保持正值,進一步解釋了為什麼策略熵會單調下降。通過理解熵動態背後的機制,我們激勵通過限制高協方差詞元的更新來控制熵。具體而言,我們提出了兩種簡單而有效的技術,即Clip-Cov和KL-Cov,分別對高協方差詞元進行裁剪和應用KL懲罰。實驗表明,這些方法鼓勵了探索,從而幫助策略逃離熵崩潰並實現更好的下游性能。