Critique-Coder: Miglioramento dei Modelli di Codifica attraverso l'Apprendimento per Rinforzo basato su Critiche
Critique-Coder: Enhancing Coder Models by Critique Reinforcement Learning
September 26, 2025
Autori: Chi Ruan, Dongfu Jiang, Yubo Wang, Wenhu Chen
cs.AI
Abstract
Il Reinforcement Learning (RL) è emerso come un paradigma di addestramento popolare, in particolare quando abbinato a modelli di ragionamento. Sebbene efficace, si concentra principalmente sulla generazione di risposte e manca di meccanismi per favorire esplicitamente la critica o la riflessione. Diversi studi recenti, come Critique-Fine-Tuning (CFT) e Critique-Guided-Distillation (CGD), hanno dimostrato i benefici di insegnare esplicitamente agli LLM come criticare. Motivati da questi risultati, proponiamo il Critique Reinforcement Learning (CRL), in cui il modello è incaricato di generare una critica per una coppia (domanda, soluzione). La ricompensa è determinata esclusivamente dal fatto che l'etichetta di giudizio finale c in {Vero, Falso} della critica generata sia allineata con il giudizio di riferimento c^*. Sulla base di questo, introduciamo Critique-Coder, che viene addestrato su un ibrido di RL e CRL sostituendo il 20\% dei dati standard RL con dati CRL. Addestriamo più modelli (Critique-Coder) e li valutiamo su diversi benchmark per dimostrare i loro vantaggi rispetto ai modelli esclusivamente RL. Mostriamo che Critique-Coder supera costantemente i baseline esclusivamente RL su tutti i benchmark valutati. In particolare, il nostro Critique-Coder-8B può raggiungere oltre il 60\% su LiveCodeBench (v5), superando altri modelli di ragionamento come DeepCoder-14B e GPT-o1. Oltre alla generazione di codice, Critique-Coder dimostra anche capacità di ragionamento generale migliorate, come evidenziato dalla sua migliore performance sui task di ragionamento logico del dataset BBEH. Ciò indica che l'applicazione del CRL su dataset di codifica migliora le capacità di ragionamento generale e di critica, che sono trasferibili su un'ampia gamma di task. Pertanto, riteniamo che il CRL rappresenti un ottimo complemento al RL standard per il ragionamento degli LLM.
English
Reinforcement Learning (RL) has emerged as a popular training paradigm,
particularly when paired with reasoning models. While effective, it primarily
focuses on generating responses and lacks mechanisms to explicitly foster
critique or reflection. Several recent studies, like Critique-Fine-Tuning (CFT)
and Critique-Guided-Distillation (CGD) have shown the benefits of explicitly
teaching LLMs how to critique. Motivated by them, we propose Critique
Reinforcement Learning (CRL), where the model is tasked with generating a
critique for a given (question, solution) pair. The reward is determined solely
by whether the final judgment label c in {True, False}
of the generated critique aligns with the ground-truth judgment c^*. Building
on this point, we introduce Critique-Coder, which is trained on a
hybrid of RL and CRL by substituting 20\% of the standard RL data with CRL
data. We fine-tune multiple models (Critique-Coder) and evaluate them
on different benchmarks to show their advantages over RL-only models. We show
that Critique-Coder consistently outperforms RL-only baselines on all
the evaluated benchmarks. Notably, our Critique-Coder-8B can reach
over 60\% on LiveCodeBench (v5), outperforming other reasoning models like
DeepCoder-14B and GPT-o1. Beyond code generation, Critique-Coder also
demonstrates enhanced general reasoning abilities, as evidenced by its better
performance on logic reasoning tasks from the BBEH dataset. This indicates that
the application of CRL on coding datasets enhances general reasoning and
critique abilities, which are transferable across a broad range of tasks.
Hence, we believe that CRL works as a great complement to standard RL for LLM
reasoning.