Critique-Coder: Mejora de Modelos de Codificación mediante Aprendizaje por Refuerzo basado en Críticas
Critique-Coder: Enhancing Coder Models by Critique Reinforcement Learning
September 26, 2025
Autores: Chi Ruan, Dongfu Jiang, Yubo Wang, Wenhu Chen
cs.AI
Resumen
El Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ha surgido como un paradigma de entrenamiento popular, especialmente cuando se combina con modelos de razonamiento. Aunque es efectivo, se centra principalmente en generar respuestas y carece de mecanismos para fomentar explícitamente la crítica o la reflexión. Varios estudios recientes, como el Ajuste Fino con Crítica (CFT) y la Destilación Guiada por Crítica (CGD), han demostrado los beneficios de enseñar explícitamente a los Modelos de Lenguaje de Gran Escala (LLMs) cómo criticar. Motivados por estos trabajos, proponemos el Aprendizaje por Refuerzo con Crítica (CRL), donde el modelo tiene la tarea de generar una crítica para un par (pregunta, solución). La recompensa se determina únicamente por si la etiqueta de juicio final \( c \) en {Verdadero, Falso} de la crítica generada coincide con el juicio de referencia \( c^* \). Basándonos en este punto, presentamos Critique-Coder, que se entrena con una combinación de RL y CRL, sustituyendo el 20\% de los datos estándar de RL con datos de CRL. Ajustamos finamente múltiples modelos (Critique-Coder) y los evaluamos en diferentes benchmarks para demostrar sus ventajas sobre los modelos que solo utilizan RL. Mostramos que Critique-Coder supera consistentemente a los baselines que solo utilizan RL en todos los benchmarks evaluados. En particular, nuestro Critique-Coder-8B puede alcanzar más del 60\% en LiveCodeBench (v5), superando a otros modelos de razonamiento como DeepCoder-14B y GPT-o1. Más allá de la generación de código, Critique-Coder también demuestra habilidades mejoradas de razonamiento general, como lo evidencia su mejor desempeño en tareas de razonamiento lógico del conjunto de datos BBEH. Esto indica que la aplicación de CRL en conjuntos de datos de codificación mejora las habilidades generales de razonamiento y crítica, que son transferibles a una amplia gama de tareas. Por lo tanto, creemos que CRL funciona como un gran complemento al RL estándar para el razonamiento en LLMs.
English
Reinforcement Learning (RL) has emerged as a popular training paradigm,
particularly when paired with reasoning models. While effective, it primarily
focuses on generating responses and lacks mechanisms to explicitly foster
critique or reflection. Several recent studies, like Critique-Fine-Tuning (CFT)
and Critique-Guided-Distillation (CGD) have shown the benefits of explicitly
teaching LLMs how to critique. Motivated by them, we propose Critique
Reinforcement Learning (CRL), where the model is tasked with generating a
critique for a given (question, solution) pair. The reward is determined solely
by whether the final judgment label c in {True, False}
of the generated critique aligns with the ground-truth judgment c^*. Building
on this point, we introduce Critique-Coder, which is trained on a
hybrid of RL and CRL by substituting 20\% of the standard RL data with CRL
data. We fine-tune multiple models (Critique-Coder) and evaluate them
on different benchmarks to show their advantages over RL-only models. We show
that Critique-Coder consistently outperforms RL-only baselines on all
the evaluated benchmarks. Notably, our Critique-Coder-8B can reach
over 60\% on LiveCodeBench (v5), outperforming other reasoning models like
DeepCoder-14B and GPT-o1. Beyond code generation, Critique-Coder also
demonstrates enhanced general reasoning abilities, as evidenced by its better
performance on logic reasoning tasks from the BBEH dataset. This indicates that
the application of CRL on coding datasets enhances general reasoning and
critique abilities, which are transferable across a broad range of tasks.
Hence, we believe that CRL works as a great complement to standard RL for LLM
reasoning.