Insegnare ai Modelli Linguistici a Criticare tramite Apprendimento per Rinforzo
Teaching Language Models to Critique via Reinforcement Learning
February 5, 2025
Autori: Zhihui Xie, Jie chen, Liyu Chen, Weichao Mao, Jingjing Xu, Lingpeng Kong
cs.AI
Abstract
Insegnare ai grandi modelli linguistici (LLM) a criticare e perfezionare le loro uscite è cruciale per la costruzione di sistemi in grado di migliorare iterativamente, ma è fondamentalmente limitato dalla capacità di fornire giudizi accurati e suggerimenti pratici. In questo lavoro, studiamo i critici LLM per la generazione di codice e proponiamo CTRL, un framework per l'Addestramento del Critico tramite Apprendimento per Rinforzo, che addestra un modello critico a generare feedback che massimizza le prestazioni di correzione per un modello generatore fisso senza supervisione umana. I nostri risultati dimostrano che i critici addestrati con CTRL migliorano significativamente i tassi di superamento e mitigano gli errori cumulativi sia nei modelli generatore di base che in quelli più potenti. Inoltre, mostriamo che questi modelli critici agiscono come accurati modelli di ricompensa generativi e consentono la scalabilità al momento del test attraverso la critica-rivisitazione iterativa, ottenendo miglioramenti relativi fino al 106,1% su benchmark di generazione di codice impegnativi.
English
Teaching large language models (LLMs) to critique and refine their outputs is
crucial for building systems that can iteratively improve, yet it is
fundamentally limited by the ability to provide accurate judgments and
actionable suggestions. In this work, we study LLM critics for code generation
and propose CTRL, a framework for Critic
Training via Reinforcement Learning, which
trains a critic model to generate feedback that maximizes correction
performance for a fixed generator model without human supervision. Our results
demonstrate that critics trained with CTRL significantly enhance
pass rates and mitigate compounding errors across both base and stronger
generator models. Furthermore, we show that these critic models act as accurate
generative reward models and enable test-time scaling through iterative
critique-revision, achieving up to 106.1% relative improvements across
challenging code generation benchmarks.