Critique-Coder: Улучшение моделей программирования с помощью обучения с подкреплением на основе критики
Critique-Coder: Enhancing Coder Models by Critique Reinforcement Learning
September 26, 2025
Авторы: Chi Ruan, Dongfu Jiang, Yubo Wang, Wenhu Chen
cs.AI
Аннотация
Обучение с подкреплением (Reinforcement Learning, RL) стало популярной парадигмой обучения, особенно в сочетании с моделями рассуждений. Хотя оно эффективно, RL в основном сосредоточено на генерации ответов и не имеет механизмов для явного развития критики или рефлексии. Несколько недавних исследований, таких как Critique-Fine-Tuning (CFT) и Critique-Guided-Distillation (CGD), продемонстрировали преимущества явного обучения больших языковых моделей (LLM) критике. Вдохновленные этими работами, мы предлагаем Critique Reinforcement Learning (CRL), где модель должна генерировать критику для заданной пары (вопрос, решение). Награда определяется исключительно тем, совпадает ли итоговый метка суждения c из {True, False} сгенерированной критики с истинной меткой суждения c^*. На основе этого мы представляем Critique-Coder, который обучается на гибриде RL и CRL, заменяя 20% стандартных данных RL данными CRL. Мы дообучаем несколько моделей (Critique-Coder) и оцениваем их на различных бенчмарках, чтобы показать их преимущества перед моделями, обученными только на RL. Мы демонстрируем, что Critique-Coder стабильно превосходит базовые модели, обученные только на RL, на всех оцениваемых бенчмарках. В частности, наш Critique-Coder-8B достигает более 60% на LiveCodeBench (v5), превосходя другие модели рассуждений, такие как DeepCoder-14B и GPT-o1. Помимо генерации кода, Critique-Coder также демонстрирует улучшенные способности к общему рассуждению, что подтверждается его лучшей производительностью на задачах логического рассуждения из набора данных BBEH. Это указывает на то, что применение CRL на наборах данных по программированию улучшает общие способности к рассуждению и критике, которые могут быть перенесены на широкий спектр задач. Таким образом, мы считаем, что CRL является отличным дополнением к стандартному RL для рассуждений в LLM.
English
Reinforcement Learning (RL) has emerged as a popular training paradigm,
particularly when paired with reasoning models. While effective, it primarily
focuses on generating responses and lacks mechanisms to explicitly foster
critique or reflection. Several recent studies, like Critique-Fine-Tuning (CFT)
and Critique-Guided-Distillation (CGD) have shown the benefits of explicitly
teaching LLMs how to critique. Motivated by them, we propose Critique
Reinforcement Learning (CRL), where the model is tasked with generating a
critique for a given (question, solution) pair. The reward is determined solely
by whether the final judgment label c in {True, False}
of the generated critique aligns with the ground-truth judgment c^*. Building
on this point, we introduce Critique-Coder, which is trained on a
hybrid of RL and CRL by substituting 20\% of the standard RL data with CRL
data. We fine-tune multiple models (Critique-Coder) and evaluate them
on different benchmarks to show their advantages over RL-only models. We show
that Critique-Coder consistently outperforms RL-only baselines on all
the evaluated benchmarks. Notably, our Critique-Coder-8B can reach
over 60\% on LiveCodeBench (v5), outperforming other reasoning models like
DeepCoder-14B and GPT-o1. Beyond code generation, Critique-Coder also
demonstrates enhanced general reasoning abilities, as evidenced by its better
performance on logic reasoning tasks from the BBEH dataset. This indicates that
the application of CRL on coding datasets enhances general reasoning and
critique abilities, which are transferable across a broad range of tasks.
Hence, we believe that CRL works as a great complement to standard RL for LLM
reasoning.