Enseñando a los Modelos de Lenguaje a Criticar mediante Aprendizaje por Refuerzo
Teaching Language Models to Critique via Reinforcement Learning
February 5, 2025
Autores: Zhihui Xie, Jie chen, Liyu Chen, Weichao Mao, Jingjing Xu, Lingpeng Kong
cs.AI
Resumen
Enseñar a los modelos de lenguaje grandes (LLMs) a criticar y refinar sus salidas es crucial para construir sistemas que puedan mejorar de forma iterativa, pero está fundamentalmente limitado por la capacidad de proporcionar juicios precisos y sugerencias accionables. En este trabajo, estudiamos los críticos de LLM para la generación de código y proponemos CTRL, un marco para el Entrenamiento de Críticos mediante Aprendizaje por Refuerzo, que entrena un modelo crítico para generar retroalimentación que maximiza el rendimiento de corrección para un modelo generador fijo sin supervisión humana. Nuestros resultados demuestran que los críticos entrenados con CTRL mejoran significativamente las tasas de aprobación y mitigan los errores acumulativos en modelos generadores base y más sólidos. Además, mostramos que estos modelos críticos actúan como precisos modelos de recompensa generativos y permiten la escalabilidad en tiempo de prueba a través de la crítica-revisión iterativa, logrando mejoras relativas de hasta un 106.1% en desafiantes bancos de pruebas de generación de código.
English
Teaching large language models (LLMs) to critique and refine their outputs is
crucial for building systems that can iteratively improve, yet it is
fundamentally limited by the ability to provide accurate judgments and
actionable suggestions. In this work, we study LLM critics for code generation
and propose CTRL, a framework for Critic
Training via Reinforcement Learning, which
trains a critic model to generate feedback that maximizes correction
performance for a fixed generator model without human supervision. Our results
demonstrate that critics trained with CTRL significantly enhance
pass rates and mitigate compounding errors across both base and stronger
generator models. Furthermore, we show that these critic models act as accurate
generative reward models and enable test-time scaling through iterative
critique-revision, achieving up to 106.1% relative improvements across
challenging code generation benchmarks.Summary
AI-Generated Summary