通過強化學習訓練語言模型進行自我校正Training Language Models to Self-Correct via Reinforcement Learning
自我校正是大型語言模型(LLMs)中一個非常理想的能力,然而在現代LLMs中,它一直被發現在很大程度上是無效的。現有的自我校正訓練方法要麼需要多個模型,要麼依賴更強大的模型或其他形式的監督。為此,我們開發了一種多輪在線強化學習(RL)方法SCoRe,通過完全使用自生成的數據,顯著提高了LLM的自我校正能力。為構建SCoRe,我們首先展示了在離線模型生成的校正軌跡上變體的監督微調(SFT)是不足以灌輸自我校正行為的。具體而言,我們觀察到通過SFT進行訓練要麼受到訓練數據與模型自身回應之間的分佈不匹配的困擾,要麼隱式地偏好於某種在測試時通常不起作用的校正行為模式。SCoRe通過在模型自身生成的校正軌跡分佈下進行訓練,並使用適當的正則化來引導學習過程,使其學習一種在測試時有效的自我校正策略,而不僅僅是對於給定提示擬合高獎勵回應。該正則化規定在基礎模型上運行第一階段的RL以生成較不容易崩潰的策略初始化,然後使用獎勵獎金來放大訓練期間的自我校正。當應用於Gemini 1.0 Pro和1.5 Flash模型時,我們發現SCoRe在MATH和HumanEval基準測試中分別將基礎模型的自我校正性能提高了15.6%和9.1%,達到了最先進的自我校正性能水平。