Critique-Coder: Verbesserung von Coder-Modellen durch Kritik-gestütztes Reinforcement Learning
Critique-Coder: Enhancing Coder Models by Critique Reinforcement Learning
September 26, 2025
papers.authors: Chi Ruan, Dongfu Jiang, Yubo Wang, Wenhu Chen
cs.AI
papers.abstract
Reinforcement Learning (RL) hat sich als ein beliebtes Trainingsparadigma etabliert, insbesondere in Kombination mit Reasoning-Modellen. Obwohl effektiv, konzentriert es sich hauptsächlich auf die Generierung von Antworten und verfügt über keine Mechanismen, um Kritik oder Reflexion explizit zu fördern. Mehrere aktuelle Studien, wie Critique-Fine-Tuning (CFT) und Critique-Guided-Distillation (CGD), haben die Vorteile des expliziten Lehrens von LLMs, wie man kritisiert, aufgezeigt. Motiviert durch diese Ansätze schlagen wir Critique Reinforcement Learning (CRL) vor, bei dem das Modell die Aufgabe hat, eine Kritik für ein gegebenes (Frage, Lösung)-Paar zu generieren. Die Belohnung wird ausschließlich dadurch bestimmt, ob das endgültige Urteilslabel c in {Wahr, Falsch} der generierten Kritik mit dem Ground-Truth-Urteil c^* übereinstimmt. Aufbauend auf diesem Punkt führen wir Critique-Coder ein, das auf einer Mischung aus RL und CRL trainiert wird, indem 20\% der Standard-RL-Daten durch CRL-Daten ersetzt werden. Wir feintunen mehrere Modelle (Critique-Coder) und evaluieren sie auf verschiedenen Benchmarks, um ihre Vorteile gegenüber reinen RL-Modellen zu zeigen. Wir zeigen, dass Critique-Coder durchweg die reinen RL-Baselines auf allen evaluierten Benchmarks übertrifft. Insbesondere kann unser Critique-Coder-8B auf LiveCodeBench (v5) über 60\% erreichen und damit andere Reasoning-Modelle wie DeepCoder-14B und GPT-o1 übertreffen. Über die Codegenerierung hinaus zeigt Critique-Coder auch verbesserte allgemeine Reasoning-Fähigkeiten, wie seine bessere Leistung bei logischen Reasoning-Aufgaben aus dem BBEH-Datensatz belegt. Dies deutet darauf hin, dass die Anwendung von CRL auf Coding-Datensätze das allgemeine Reasoning und die Kritikfähigkeiten verbessert, die auf eine breite Palette von Aufgaben übertragbar sind. Daher glauben wir, dass CRL eine hervorragende Ergänzung zum Standard-RL für das Reasoning von LLMs darstellt.
English
Reinforcement Learning (RL) has emerged as a popular training paradigm,
particularly when paired with reasoning models. While effective, it primarily
focuses on generating responses and lacks mechanisms to explicitly foster
critique or reflection. Several recent studies, like Critique-Fine-Tuning (CFT)
and Critique-Guided-Distillation (CGD) have shown the benefits of explicitly
teaching LLMs how to critique. Motivated by them, we propose Critique
Reinforcement Learning (CRL), where the model is tasked with generating a
critique for a given (question, solution) pair. The reward is determined solely
by whether the final judgment label c in {True, False}
of the generated critique aligns with the ground-truth judgment c^*. Building
on this point, we introduce Critique-Coder, which is trained on a
hybrid of RL and CRL by substituting 20\% of the standard RL data with CRL
data. We fine-tune multiple models (Critique-Coder) and evaluate them
on different benchmarks to show their advantages over RL-only models. We show
that Critique-Coder consistently outperforms RL-only baselines on all
the evaluated benchmarks. Notably, our Critique-Coder-8B can reach
over 60\% on LiveCodeBench (v5), outperforming other reasoning models like
DeepCoder-14B and GPT-o1. Beyond code generation, Critique-Coder also
demonstrates enhanced general reasoning abilities, as evidenced by its better
performance on logic reasoning tasks from the BBEH dataset. This indicates that
the application of CRL on coding datasets enhances general reasoning and
critique abilities, which are transferable across a broad range of tasks.
Hence, we believe that CRL works as a great complement to standard RL for LLM
reasoning.