Addestramento di modelli linguistici per l'auto-correzione tramite apprendimento per rinforzo.
Training Language Models to Self-Correct via Reinforcement Learning
September 19, 2024
Autori: Aviral Kumar, Vincent Zhuang, Rishabh Agarwal, Yi Su, John D Co-Reyes, Avi Singh, Kate Baumli, Shariq Iqbal, Colton Bishop, Rebecca Roelofs, Lei M Zhang, Kay McKinney, Disha Shrivastava, Cosmin Paduraru, George Tucker, Doina Precup, Feryal Behbahani, Aleksandra Faust
cs.AI
Abstract
L'autocorrezione è una capacità molto desiderabile dei grandi modelli linguistici (LLM), tuttavia è stata costantemente trovata poco efficace nei LLM moderni. Gli approcci esistenti per addestrare l'autocorrezione richiedono o più modelli o un modello più capace o altre forme di supervisione. A questo scopo, sviluppiamo un approccio di apprendimento per rinforzo (RL) online a più turni, SCoRe, che migliora significativamente la capacità di autocorrezione di un LLM utilizzando dati interamente autogenerati. Per costruire SCoRe, mostriamo innanzitutto che le varianti del fine-tuning supervisionato (SFT) su tracce di correzione generate offline dal modello sono insufficienti per instillare il comportamento di autocorrezione. In particolare, osserviamo che l'addestramento tramite SFT soffre di una discrepanza di distribuzione tra i dati di addestramento e le risposte del modello stesso o preferisce implicitamente solo un certo modo di comportamento di correzione che spesso non è efficace al momento del test. SCoRe affronta queste sfide addestrando sotto la distribuzione del modello di tracce di correzione autogenerate e utilizzando una regolarizzazione appropriata per guidare il processo di apprendimento nell'apprendimento di una strategia di autocorrezione efficace al momento del test anziché semplicemente adattare risposte ad alto reward per un determinato prompt. Questa regolarizzazione prescrive l'esecuzione di una prima fase di RL su un modello di base per generare una inizializzazione della policy che è meno suscettibile al collasso e quindi utilizzare un bonus di reward per amplificare l'autocorrezione durante l'addestramento. Applicato ai modelli Gemini 1.0 Pro e 1.5 Flash, scopriamo che SCoRe raggiunge prestazioni di autocorrezione all'avanguardia, migliorando rispettivamente del 15,6% e del 9,1% le prestazioni di autocorrezione dei modelli di base nei benchmark MATH e HumanEval.
English
Self-correction is a highly desirable capability of large language models
(LLMs), yet it has consistently been found to be largely ineffective in modern
LLMs. Existing approaches for training self-correction either require multiple
models or rely on a more capable model or other forms of supervision. To this
end, we develop a multi-turn online reinforcement learning (RL) approach,
SCoRe, that significantly improves an LLM's self-correction ability using
entirely self-generated data. To build SCoRe, we first show that variants of
supervised fine-tuning (SFT) on offline model-generated correction traces are
insufficient for instilling self-correction behavior. In particular, we observe
that training via SFT either suffers from a distribution mismatch between the
training data and the model's own responses or implicitly prefers only a
certain mode of correction behavior that is often not effective at test time.
SCoRe addresses these challenges by training under the model's own distribution
of self-generated correction traces and using appropriate regularization to
steer the learning process into learning a self-correction strategy that is
effective at test time as opposed to simply fitting high-reward responses for a
given prompt. This regularization prescribes running a first phase of RL on a
base model to generate a policy initialization that is less susceptible to
collapse and then using a reward bonus to amplify self-correction during
training. When applied to Gemini 1.0 Pro and 1.5 Flash models, we find that
SCoRe achieves state-of-the-art self-correction performance, improving the base
models' self-correction by 15.6% and 9.1% respectively on the MATH and
HumanEval benchmarks.Summary
AI-Generated Summary