Critique-Coder: Verbetering van Coder-modellen door Kritiek Versterkend Leren

Samenvatting

Reinforcement Learning (RL) is uitgegroeid tot een populair trainingsparadigma, vooral in combinatie met redeneermodellen. Hoewel effectief, richt het zich voornamelijk op het genereren van antwoorden en ontbreekt het mechanismen om kritiek of reflectie expliciet te bevorderen. Verschillende recente studies, zoals Critique-Fine-Tuning (CFT) en Critique-Guided-Distillation (CGD), hebben de voordelen aangetoond van het expliciet aanleren van kritiek aan LLM's. Geïnspireerd door deze studies stellen we Critique Reinforcement Learning (CRL) voor, waarbij het model de taak krijgt om een kritiek te genereren voor een gegeven (vraag, oplossing)-paar. De beloning wordt uitsluitend bepaald door of het uiteindelijke oordeellabel c in {Waar, Onwaar} van de gegenereerde kritiek overeenkomt met het grondwaarheidsoordeel c^*. Op basis hiervan introduceren we Critique-Coder, dat wordt getraind op een combinatie van RL en CRL door 20% van de standaard RL-data te vervangen door CRL-data. We fine-tunen meerdere modellen (Critique-Coder) en evalueren ze op verschillende benchmarks om hun voordelen ten opzichte van RL-only modellen aan te tonen. We laten zien dat Critique-Coder consistent beter presteert dan RL-only baselines op alle geëvalueerde benchmarks. Opmerkelijk is dat onze Critique-Coder-8B meer dan 60% kan bereiken op LiveCodeBench (v5), wat beter is dan andere redeneermodellen zoals DeepCoder-14B en GPT-o1. Naast codegeneratie toont Critique-Coder ook verbeterde algemene redeneervaardigheden, zoals blijkt uit de betere prestaties op logische redeneertaken uit de BBEH-dataset. Dit geeft aan dat de toepassing van CRL op coderingsdatasets de algemene redeneer- en kritiekvaardigheden versterkt, die overdraagbaar zijn naar een breed scala aan taken. Daarom geloven we dat CRL een uitstekende aanvulling is op standaard RL voor LLM-redenering.

English

Reinforcement Learning (RL) has emerged as a popular training paradigm, particularly when paired with reasoning models. While effective, it primarily focuses on generating responses and lacks mechanisms to explicitly foster critique or reflection. Several recent studies, like Critique-Fine-Tuning (CFT) and Critique-Guided-Distillation (CGD) have shown the benefits of explicitly teaching LLMs how to critique. Motivated by them, we propose Critique Reinforcement Learning (CRL), where the model is tasked with generating a critique for a given (question, solution) pair. The reward is determined solely by whether the final judgment label c in {True, False} of the generated critique aligns with the ground-truth judgment c^*. Building on this point, we introduce Critique-Coder, which is trained on a hybrid of RL and CRL by substituting 20\% of the standard RL data with CRL data. We fine-tune multiple models (Critique-Coder) and evaluate them on different benchmarks to show their advantages over RL-only models. We show that Critique-Coder consistently outperforms RL-only baselines on all the evaluated benchmarks. Notably, our Critique-Coder-8B can reach over 60\% on LiveCodeBench (v5), outperforming other reasoning models like DeepCoder-14B and GPT-o1. Beyond code generation, Critique-Coder also demonstrates enhanced general reasoning abilities, as evidenced by its better performance on logic reasoning tasks from the BBEH dataset. This indicates that the application of CRL on coding datasets enhances general reasoning and critique abilities, which are transferable across a broad range of tasks. Hence, we believe that CRL works as a great complement to standard RL for LLM reasoning.

Critique-Coder: Verbetering van Coder-modellen door Kritiek Versterkend Leren

Critique-Coder: Enhancing Coder Models by Critique Reinforcement Learning

Samenvatting

Support