Het trainen van taalmodellen om zichzelf te corrigeren via versterkend leren.Training Language Models to Self-Correct via Reinforcement Learning
Zelfcorrectie is een zeer gewenste capaciteit van grote taalmodellen (LLM's), maar het is consequent gebleken dat het grotendeels ineffectief is in moderne LLM's. Bestaande benaderingen voor het trainen van zelfcorrectie vereisen meerdere modellen of vertrouwen op een capabeler model of andere vormen van toezicht. Om dit te bereiken, ontwikkelen we een multi-turn online reinforcement learning (RL) benadering, SCoRe, die aanzienlijk de zelfcorrectiemogelijkheid van een LLM verbetert met volledig zelf gegenereerde gegevens. Om SCoRe te bouwen, tonen we eerst aan dat varianten van supervised fine-tuning (SFT) op offline model-genererende correctietraces onvoldoende zijn om zelfcorrectiegedrag in te prenten. In het bijzonder merken we op dat training via SFT ofwel lijdt aan een distributieverschil tussen de trainingsgegevens en de eigen reacties van het model, ofwel impliciet de voorkeur geeft aan slechts een bepaalde modus van correctiegedrag die vaak niet effectief is bij testtijd. SCoRe pakt deze uitdagingen aan door te trainen onder de eigen distributie van zelf gegenereerde correctietraces van het model en door passende regularisatie te gebruiken om het leerproces te sturen naar het aanleren van een zelfcorrectiestrategie die effectief is bij testtijd in plaats van simpelweg het passen van hoog-reward reacties voor een gegeven prompt. Deze regularisatie schrijft voor om een eerste fase van RL uit te voeren op een basismodel om een beleidsinitialisatie te genereren die minder vatbaar is voor ineenstorting en vervolgens een beloningsbonus te gebruiken om zelfcorrectie te versterken tijdens de training. Wanneer toegepast op de Gemini 1.0 Pro en 1.5 Flash modellen, vinden we dat SCoRe state-of-the-art zelfcorrectieprestaties behaalt, waarbij de zelfcorrectie van de basismodellen respectievelijk met 15,6% en 9,1% verbetert op de MATH en HumanEval benchmarks.