ProRL:延長式強化學習拓展大型語言模型的推理邊界ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in
Large Language Models
近期以推理為核心的語言模型進展,凸顯了強化學習(RL)作為一種對齊模型與可驗證獎勵的潛力方法。然而,關於RL是否真正擴展了模型的推理能力,還是僅僅放大了基礎模型分佈中已潛藏的高獎勵輸出,以及持續增加RL計算資源是否能可靠地提升推理性能,這些問題仍存在爭議。在本研究中,我們通過展示長時間的RL(ProRL)訓練能夠揭示基礎模型即使經過大量採樣也無法觸及的新推理策略,挑戰了現有的假設。我們提出了ProRL,這是一種新穎的訓練方法,它結合了KL散度控制、參考策略重置以及多樣化的任務集。我們的實證分析表明,經過RL訓練的模型在廣泛的pass@k評估中持續超越基礎模型,包括那些基礎模型無論嘗試多少次都完全失敗的情境。我們進一步展示了推理邊界的改善與基礎模型的任務能力及訓練時長強相關,這表明RL能夠隨著時間的推移探索並填充解決方案空間的新區域。這些發現為理解RL在何種條件下能有意義地擴展語言模型的推理邊界提供了新的見解,並為未來關於長期視野RL用於推理的研究奠定了基礎。我們發布了模型權重以支持進一步研究:https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B。