大语言模型推理中的强化学习:单训练样本场景Reinforcement Learning for Reasoning in Large Language Models with One
Training Example
我们证明了使用单一训练样本进行可验证奖励的强化学习(1-shot RLVR)在激励大语言模型(LLMs)的数学推理能力方面具有显著效果。将RLVR应用于基础模型Qwen2.5-Math-1.5B,我们发现一个特定样本能够将模型在MATH500上的表现从36.0%提升至73.6%,并在六个常见数学推理基准测试中的平均表现从17.6%提升至35.7%。这一结果与使用包含该样本的1.2k DeepScaleR子集所获得的性能相当(MATH500:73.6%,平均:35.9%)。类似的显著提升在不同模型(Qwen2.5-Math-7B、Llama3.2-3B-Instruct、DeepSeek-R1-Distill-Qwen-1.5B)、RL算法(GRPO和PPO)以及不同数学样本中均有体现(其中许多样本作为单一训练样本使用时,在MATH500上带来了约30%或更高的提升)。此外,我们在1-shot RLVR过程中观察到了一些有趣现象,包括跨领域泛化、自我反思频率的增加,以及训练准确率饱和后测试性能的持续提升,我们称之为“饱和后泛化”。进一步,我们验证了1-shot RLVR的有效性主要源于策略梯度损失,从而将其与“顿悟”现象区分开来。我们还展示了在1-shot RLVR训练中促进探索(例如,通过添加适当系数的熵损失)的关键作用。作为额外发现,我们观察到仅应用熵损失而不依赖任何结果奖励,也能显著提升Qwen2.5-Math-1.5B在MATH500上的表现,提升幅度达27.4%。这些发现可为未来RLVR数据效率的研究提供启示,并鼓励重新审视RLVR领域的最新进展及其内在机制。我们的代码、模型和数据已在https://github.com/ypwang61/One-Shot-RLVR开源。