ChatPaper.aiChatPaper

Insegnare ai Modelli Linguistici a Criticare tramite Apprendimento per Rinforzo

Teaching Language Models to Critique via Reinforcement Learning

February 5, 2025
Autori: Zhihui Xie, Jie chen, Liyu Chen, Weichao Mao, Jingjing Xu, Lingpeng Kong
cs.AI

Abstract

Insegnare ai grandi modelli linguistici (LLM) a criticare e perfezionare le loro uscite è cruciale per la costruzione di sistemi in grado di migliorare iterativamente, ma è fondamentalmente limitato dalla capacità di fornire giudizi accurati e suggerimenti pratici. In questo lavoro, studiamo i critici LLM per la generazione di codice e proponiamo CTRL, un framework per l'Addestramento del Critico tramite Apprendimento per Rinforzo, che addestra un modello critico a generare feedback che massimizza le prestazioni di correzione per un modello generatore fisso senza supervisione umana. I nostri risultati dimostrano che i critici addestrati con CTRL migliorano significativamente i tassi di superamento e mitigano gli errori cumulativi sia nei modelli generatore di base che in quelli più potenti. Inoltre, mostriamo che questi modelli critici agiscono come accurati modelli di ricompensa generativi e consentono la scalabilità al momento del test attraverso la critica-rivisitazione iterativa, ottenendo miglioramenti relativi fino al 106,1% su benchmark di generazione di codice impegnativi.
English
Teaching large language models (LLMs) to critique and refine their outputs is crucial for building systems that can iteratively improve, yet it is fundamentally limited by the ability to provide accurate judgments and actionable suggestions. In this work, we study LLM critics for code generation and propose CTRL, a framework for Critic Training via Reinforcement Learning, which trains a critic model to generate feedback that maximizes correction performance for a fixed generator model without human supervision. Our results demonstrate that critics trained with CTRL significantly enhance pass rates and mitigate compounding errors across both base and stronger generator models. Furthermore, we show that these critic models act as accurate generative reward models and enable test-time scaling through iterative critique-revision, achieving up to 106.1% relative improvements across challenging code generation benchmarks.
PDF242February 12, 2025