Critique-Coder: Aprimorando Modelos de Codificação por meio de Aprendizado por Reforço com Críticas
Critique-Coder: Enhancing Coder Models by Critique Reinforcement Learning
September 26, 2025
Autores: Chi Ruan, Dongfu Jiang, Yubo Wang, Wenhu Chen
cs.AI
Resumo
O Aprendizado por Reforço (RL) emergiu como um paradigma de treinamento popular, especialmente quando combinado com modelos de raciocínio. Embora eficaz, ele se concentra principalmente na geração de respostas e carece de mecanismos para promover explicitamente a crítica ou a reflexão. Vários estudos recentes, como o Critique-Fine-Tuning (CFT) e o Critique-Guided-Distillation (CGD), demonstraram os benefícios de ensinar explicitamente os LLMs a criticar. Motivados por eles, propomos o Critique Reinforcement Learning (CRL), no qual o modelo é encarregado de gerar uma crítica para um par (pergunta, solução). A recompensa é determinada exclusivamente pelo fato de o rótulo de julgamento final c em {Verdadeiro, Falso} da crítica gerada estar alinhado com o julgamento verdadeiro c^*. Com base nisso, introduzimos o Critique-Coder, que é treinado com uma combinação de RL e CRL, substituindo 20% dos dados padrão de RL por dados de CRL. Ajustamos vários modelos (Critique-Coder) e os avaliamos em diferentes benchmarks para mostrar suas vantagens sobre modelos exclusivamente RL. Demonstramos que o Critique-Coder supera consistentemente as baselines exclusivamente RL em todos os benchmarks avaliados. Notavelmente, nosso Critique-Coder-8B pode atingir mais de 60% no LiveCodeBench (v5), superando outros modelos de raciocínio como o DeepCoder-14B e o GPT-o1. Além da geração de código, o Critique-Coder também demonstra habilidades aprimoradas de raciocínio geral, como evidenciado por seu melhor desempenho em tarefas de raciocínio lógico do conjunto de dados BBEH. Isso indica que a aplicação do CRL em conjuntos de dados de codificação aprimora as habilidades gerais de raciocínio e crítica, que são transferíveis para uma ampla gama de tarefas. Portanto, acreditamos que o CRL funciona como um excelente complemento ao RL padrão para o raciocínio de LLMs.
English
Reinforcement Learning (RL) has emerged as a popular training paradigm,
particularly when paired with reasoning models. While effective, it primarily
focuses on generating responses and lacks mechanisms to explicitly foster
critique or reflection. Several recent studies, like Critique-Fine-Tuning (CFT)
and Critique-Guided-Distillation (CGD) have shown the benefits of explicitly
teaching LLMs how to critique. Motivated by them, we propose Critique
Reinforcement Learning (CRL), where the model is tasked with generating a
critique for a given (question, solution) pair. The reward is determined solely
by whether the final judgment label c in {True, False}
of the generated critique aligns with the ground-truth judgment c^*. Building
on this point, we introduce Critique-Coder, which is trained on a
hybrid of RL and CRL by substituting 20\% of the standard RL data with CRL
data. We fine-tune multiple models (Critique-Coder) and evaluate them
on different benchmarks to show their advantages over RL-only models. We show
that Critique-Coder consistently outperforms RL-only baselines on all
the evaluated benchmarks. Notably, our Critique-Coder-8B can reach
over 60\% on LiveCodeBench (v5), outperforming other reasoning models like
DeepCoder-14B and GPT-o1. Beyond code generation, Critique-Coder also
demonstrates enhanced general reasoning abilities, as evidenced by its better
performance on logic reasoning tasks from the BBEH dataset. This indicates that
the application of CRL on coding datasets enhances general reasoning and
critique abilities, which are transferable across a broad range of tasks.
Hence, we believe that CRL works as a great complement to standard RL for LLM
reasoning.