Critique-Coder : Amélioration des modèles de codage par apprentissage par renforcement basé sur la critique

papers.abstract

L'apprentissage par renforcement (Reinforcement Learning, RL) est devenu un paradigme d'entraînement populaire, en particulier lorsqu'il est associé à des modèles de raisonnement. Bien qu'efficace, il se concentre principalement sur la génération de réponses et manque de mécanismes pour favoriser explicitement la critique ou la réflexion. Plusieurs études récentes, comme le Critique-Fine-Tuning (CFT) et le Critique-Guided-Distillation (CGD), ont montré les avantages d'enseigner explicitement aux grands modèles de langage (LLM) comment critiquer. Motivés par ces travaux, nous proposons le Critique Reinforcement Learning (CRL), où le modèle est chargé de générer une critique pour une paire (question, solution) donnée. La récompense est déterminée uniquement par l'alignement du jugement final c dans {Vrai, Faux} de la critique générée avec le jugement de référence c^*. Sur cette base, nous introduisons Critique-Coder, qui est entraîné sur un mélange de RL et de CRL en remplaçant 20 % des données standard de RL par des données de CRL. Nous affinons plusieurs modèles (Critique-Coder) et les évaluons sur différents benchmarks pour montrer leurs avantages par rapport aux modèles uniquement basés sur le RL. Nous démontrons que Critique-Coder surpasse systématiquement les modèles de référence uniquement basés sur le RL sur tous les benchmarks évalués. Notamment, notre Critique-Coder-8B atteint plus de 60 % sur LiveCodeBench (v5), surpassant d'autres modèles de raisonnement comme DeepCoder-14B et GPT-o1. Au-delà de la génération de code, Critique-Coder montre également des capacités de raisonnement général améliorées, comme en témoigne sa meilleure performance sur les tâches de raisonnement logique du dataset BBEH. Cela indique que l'application du CRL sur des datasets de codage améliore les capacités de raisonnement général et de critique, qui sont transférables à un large éventail de tâches. Par conséquent, nous pensons que le CRL constitue un excellent complément au RL standard pour le raisonnement des LLM.

English

Reinforcement Learning (RL) has emerged as a popular training paradigm, particularly when paired with reasoning models. While effective, it primarily focuses on generating responses and lacks mechanisms to explicitly foster critique or reflection. Several recent studies, like Critique-Fine-Tuning (CFT) and Critique-Guided-Distillation (CGD) have shown the benefits of explicitly teaching LLMs how to critique. Motivated by them, we propose Critique Reinforcement Learning (CRL), where the model is tasked with generating a critique for a given (question, solution) pair. The reward is determined solely by whether the final judgment label c in {True, False} of the generated critique aligns with the ground-truth judgment c^*. Building on this point, we introduce Critique-Coder, which is trained on a hybrid of RL and CRL by substituting 20\% of the standard RL data with CRL data. We fine-tune multiple models (Critique-Coder) and evaluate them on different benchmarks to show their advantages over RL-only models. We show that Critique-Coder consistently outperforms RL-only baselines on all the evaluated benchmarks. Notably, our Critique-Coder-8B can reach over 60\% on LiveCodeBench (v5), outperforming other reasoning models like DeepCoder-14B and GPT-o1. Beyond code generation, Critique-Coder also demonstrates enhanced general reasoning abilities, as evidenced by its better performance on logic reasoning tasks from the BBEH dataset. This indicates that the application of CRL on coding datasets enhances general reasoning and critique abilities, which are transferable across a broad range of tasks. Hence, we believe that CRL works as a great complement to standard RL for LLM reasoning.

Critique-Coder : Amélioration des modèles de codage par apprentissage par renforcement basé sur la critique

Critique-Coder: Enhancing Coder Models by Critique Reinforcement Learning

papers.abstract

Support