Critique-Coder: 批判的強化学習によるコーダーモデルの強化
Critique-Coder: Enhancing Coder Models by Critique Reinforcement Learning
September 26, 2025
著者: Chi Ruan, Dongfu Jiang, Yubo Wang, Wenhu Chen
cs.AI
要旨
強化学習(Reinforcement Learning, RL)は、特に推論モデルと組み合わせた場合に、人気のあるトレーニングパラダイムとして登場しました。効果的ではあるものの、RLは主に応答の生成に焦点を当てており、批判や反省を明示的に促進するメカニズムを欠いています。最近のいくつかの研究、例えばCritique-Fine-Tuning(CFT)やCritique-Guided-Distillation(CGD)は、大規模言語モデル(LLM)に批判する方法を明示的に教えることの利点を示しています。これらに触発され、我々はCritique Reinforcement Learning(CRL)を提案します。CRLでは、モデルは与えられた(質問、解決策)のペアに対して批判を生成することを求められます。報酬は、生成された批判の最終的な判断ラベルc({True, False})が、真の判断c^*と一致するかどうかのみによって決定されます。この点を基に、我々はCritique-Coderを導入します。Critique-Coderは、標準的なRLデータの20%をCRLデータに置き換えることで、RLとCRLのハイブリッドでトレーニングされます。我々は複数のモデル(Critique-Coder)をファインチューニングし、異なるベンチマークで評価することで、RLのみのモデルに対する利点を示します。Critique-Coderは、評価されたすべてのベンチマークで、RLのみのベースラインを一貫して上回ることが示されました。特に、我々のCritique-Coder-8Bは、LiveCodeBench(v5)で60%以上を達成し、DeepCoder-14BやGPT-o1などの他の推論モデルを上回りました。コード生成を超えて、Critique-Coderは、BBEHデータセットの論理推論タスクでのより良いパフォーマンスからも明らかなように、一般的な推論能力の向上も示しています。これは、コーディングデータセットへのCRLの適用が、一般的な推論能力と批判能力を強化し、幅広いタスクに転移可能であることを示しています。したがって、我々は、CRLがLLMの推論において標準的なRLの優れた補完として機能すると信じています。
English
Reinforcement Learning (RL) has emerged as a popular training paradigm,
particularly when paired with reasoning models. While effective, it primarily
focuses on generating responses and lacks mechanisms to explicitly foster
critique or reflection. Several recent studies, like Critique-Fine-Tuning (CFT)
and Critique-Guided-Distillation (CGD) have shown the benefits of explicitly
teaching LLMs how to critique. Motivated by them, we propose Critique
Reinforcement Learning (CRL), where the model is tasked with generating a
critique for a given (question, solution) pair. The reward is determined solely
by whether the final judgment label c in {True, False}
of the generated critique aligns with the ground-truth judgment c^*. Building
on this point, we introduce Critique-Coder, which is trained on a
hybrid of RL and CRL by substituting 20\% of the standard RL data with CRL
data. We fine-tune multiple models (Critique-Coder) and evaluate them
on different benchmarks to show their advantages over RL-only models. We show
that Critique-Coder consistently outperforms RL-only baselines on all
the evaluated benchmarks. Notably, our Critique-Coder-8B can reach
over 60\% on LiveCodeBench (v5), outperforming other reasoning models like
DeepCoder-14B and GPT-o1. Beyond code generation, Critique-Coder also
demonstrates enhanced general reasoning abilities, as evidenced by its better
performance on logic reasoning tasks from the BBEH dataset. This indicates that
the application of CRL on coding datasets enhances general reasoning and
critique abilities, which are transferable across a broad range of tasks.
Hence, we believe that CRL works as a great complement to standard RL for LLM
reasoning.