Benutten van Negatieve Signalen: Versterkingsdistillatie uit Leraargegevens voor Redeneren met Taalmodellen

Samenvatting

Recente ontwikkelingen in modeldistillatie tonen aan dat gegevens van geavanceerde redeneermodellen (bijv. DeepSeek-R1, OpenAI's o1) complexe redeneervaardigheden effectief kunnen overdragen naar kleinere, efficiënte studentmodellen. Standaardpraktijken maken echter gebruik van afwijzingssteekproeven, waarbij incorrecte redeneringsvoorbeelden worden weggegooid -- waardevolle, maar vaak onderbenutte gegevens. Dit artikel behandelt de kritieke vraag: Hoe kunnen zowel positieve als negatieve gedistilleerde redeneringssporen effectief worden benut om de redeneerprestaties van LLM's in een offline omgeving te maximaliseren? Hiertoe stellen we Reinforcement Distillation (REDI) voor, een raamwerk in twee fasen. Fase 1 leert van positieve sporen via Supervised Fine-Tuning (SFT). Fase 2 verfijnt het model verder met behulp van zowel positieve als negatieve sporen door middel van ons voorgestelde REDI-doel. Dit nieuwe doel is een eenvoudige, referentievrije verliesfunctie die gevestigde methoden zoals DPO en SimPO in deze distillatiecontext overtreft. Onze empirische evaluaties tonen de superioriteit van REDI aan ten opzichte van baseline Rejection Sampling SFT of SFT gecombineerd met DPO/SimPO bij wiskundige redeneertaken. Opmerkelijk is dat het Qwen-REDI-1.5B-model, na-getraind op slechts 131k positieve en negatieve voorbeelden uit de open Open-R1-dataset, een score van 83,1% behaalt op MATH-500 (pass@1). De prestaties komen overeen met of overtreffen die van DeepSeek-R1-Distill-Qwen-1.5B (een model na-getraind op 800k propriëtaire gegevens) op verschillende wiskundige redeneerbenchmarks, waarmee een nieuwe state-of-the-art wordt gevestigd voor 1.5B-modellen die offline zijn na-getraind met openbaar beschikbare gegevens.

English

Recent advances in model distillation demonstrate that data from advanced reasoning models (e.g., DeepSeek-R1, OpenAI's o1) can effectively transfer complex reasoning abilities to smaller, efficient student models. However, standard practices employ rejection sampling, discarding incorrect reasoning examples -- valuable, yet often underutilized data. This paper addresses the critical question: How can both positive and negative distilled reasoning traces be effectively leveraged to maximize LLM reasoning performance in an offline setting? To this end, We propose Reinforcement Distillation (REDI), a two-stage framework. Stage 1 learns from positive traces via Supervised Fine-Tuning (SFT). Stage 2 further refines the model using both positive and negative traces through our proposed REDI objective. This novel objective is a simple, reference-free loss function that outperforms established methods like DPO and SimPO in this distillation context. Our empirical evaluations demonstrate REDI's superiority over baseline Rejection Sampling SFT or SFT combined with DPO/SimPO on mathematical reasoning tasks. Notably, the Qwen-REDI-1.5B model, post-trained on just 131k positive and negative examples from the open Open-R1 dataset, achieves an 83.1% score on MATH-500 (pass@1). Its performance matches or surpasses that of DeepSeek-R1-Distill-Qwen-1.5B (a model post-trained on 800k proprietary data) across various mathematical reasoning benchmarks, establishing a new state-of-the-art for 1.5B models post-trained offline with openly available data.

Benutten van Negatieve Signalen: Versterkingsdistillatie uit Leraargegevens voor Redeneren met Taalmodellen

Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning

Samenvatting

Support