Addestramento di modelli linguistici per l'auto-correzione tramite apprendimento per rinforzo.Training Language Models to Self-Correct via Reinforcement Learning
L'autocorrezione è una capacità molto desiderabile dei grandi modelli linguistici (LLM), tuttavia è stata costantemente trovata poco efficace nei LLM moderni. Gli approcci esistenti per addestrare l'autocorrezione richiedono o più modelli o un modello più capace o altre forme di supervisione. A questo scopo, sviluppiamo un approccio di apprendimento per rinforzo (RL) online a più turni, SCoRe, che migliora significativamente la capacità di autocorrezione di un LLM utilizzando dati interamente autogenerati. Per costruire SCoRe, mostriamo innanzitutto che le varianti del fine-tuning supervisionato (SFT) su tracce di correzione generate offline dal modello sono insufficienti per instillare il comportamento di autocorrezione. In particolare, osserviamo che l'addestramento tramite SFT soffre di una discrepanza di distribuzione tra i dati di addestramento e le risposte del modello stesso o preferisce implicitamente solo un certo modo di comportamento di correzione che spesso non è efficace al momento del test. SCoRe affronta queste sfide addestrando sotto la distribuzione del modello di tracce di correzione autogenerate e utilizzando una regolarizzazione appropriata per guidare il processo di apprendimento nell'apprendimento di una strategia di autocorrezione efficace al momento del test anziché semplicemente adattare risposte ad alto reward per un determinato prompt. Questa regolarizzazione prescrive l'esecuzione di una prima fase di RL su un modello di base per generare una inizializzazione della policy che è meno suscettibile al collasso e quindi utilizzare un bonus di reward per amplificare l'autocorrezione durante l'addestramento. Applicato ai modelli Gemini 1.0 Pro e 1.5 Flash, scopriamo che SCoRe raggiunge prestazioni di autocorrezione all'avanguardia, migliorando rispettivamente del 15,6% e del 9,1% le prestazioni di autocorrezione dei modelli di base nei benchmark MATH e HumanEval.