Ensino de Modelos de Linguagem para Fazer Críticas via Aprendizado por Reforço

Resumo

Ensinar modelos de linguagem grandes (LLMs) a criticar e refinar suas saídas é crucial para construir sistemas que possam melhorar de forma iterativa, no entanto, é fundamentalmente limitado pela capacidade de fornecer julgamentos precisos e sugestões acionáveis. Neste trabalho, estudamos críticos de LLM para geração de código e propomos CTRL, um framework para Treinamento de Crítico via Aprendizado por Reforço, que treina um modelo crítico para gerar feedback que maximize o desempenho de correção para um modelo gerador fixo sem supervisão humana. Nossos resultados demonstram que críticos treinados com CTRL melhoram significativamente as taxas de aprovação e mitigam erros cumulativos em ambos os modelos geradores base e mais fortes. Além disso, mostramos que esses modelos críticos atuam como modelos de recompensa generativos precisos e possibilitam a escalabilidade no momento do teste por meio de crítica-revisão iterativa, alcançando melhorias relativas de até 106,1% em benchmarks desafiadores de geração de código.

English

Teaching large language models (LLMs) to critique and refine their outputs is crucial for building systems that can iteratively improve, yet it is fundamentally limited by the ability to provide accurate judgments and actionable suggestions. In this work, we study LLM critics for code generation and propose CTRL, a framework for Critic Training via Reinforcement Learning, which trains a critic model to generate feedback that maximizes correction performance for a fixed generator model without human supervision. Our results demonstrate that critics trained with CTRL significantly enhance pass rates and mitigate compounding errors across both base and stronger generator models. Furthermore, we show that these critic models act as accurate generative reward models and enable test-time scaling through iterative critique-revision, achieving up to 106.1% relative improvements across challenging code generation benchmarks.

Ensino de Modelos de Linguagem para Fazer Críticas via Aprendizado por Reforço

Teaching Language Models to Critique via Reinforcement Learning

Resumo

Support