Ensino de Modelos de Linguagem para Fazer Críticas via Aprendizado por Reforço
Teaching Language Models to Critique via Reinforcement Learning
February 5, 2025
Autores: Zhihui Xie, Jie chen, Liyu Chen, Weichao Mao, Jingjing Xu, Lingpeng Kong
cs.AI
Resumo
Ensinar modelos de linguagem grandes (LLMs) a criticar e refinar suas saídas é crucial para construir sistemas que possam melhorar de forma iterativa, no entanto, é fundamentalmente limitado pela capacidade de fornecer julgamentos precisos e sugestões acionáveis. Neste trabalho, estudamos críticos de LLM para geração de código e propomos CTRL, um framework para Treinamento de Crítico via Aprendizado por Reforço, que treina um modelo crítico para gerar feedback que maximize o desempenho de correção para um modelo gerador fixo sem supervisão humana. Nossos resultados demonstram que críticos treinados com CTRL melhoram significativamente as taxas de aprovação e mitigam erros cumulativos em ambos os modelos geradores base e mais fortes. Além disso, mostramos que esses modelos críticos atuam como modelos de recompensa generativos precisos e possibilitam a escalabilidade no momento do teste por meio de crítica-revisão iterativa, alcançando melhorias relativas de até 106,1% em benchmarks desafiadores de geração de código.
English
Teaching large language models (LLMs) to critique and refine their outputs is
crucial for building systems that can iteratively improve, yet it is
fundamentally limited by the ability to provide accurate judgments and
actionable suggestions. In this work, we study LLM critics for code generation
and propose CTRL, a framework for Critic
Training via Reinforcement Learning, which
trains a critic model to generate feedback that maximizes correction
performance for a fixed generator model without human supervision. Our results
demonstrate that critics trained with CTRL significantly enhance
pass rates and mitigate compounding errors across both base and stronger
generator models. Furthermore, we show that these critic models act as accurate
generative reward models and enable test-time scaling through iterative
critique-revision, achieving up to 106.1% relative improvements across
challenging code generation benchmarks.Summary
AI-Generated Summary