Benutten van Negatieve Signalen: Versterkingsdistillatie uit Leraargegevens voor Redeneren met Taalmodellen
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning
May 30, 2025
Auteurs: Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi
cs.AI
Samenvatting
Recente ontwikkelingen in modeldistillatie tonen aan dat gegevens van geavanceerde redeneermodellen (bijv. DeepSeek-R1, OpenAI's o1) complexe redeneervaardigheden effectief kunnen overdragen naar kleinere, efficiënte studentmodellen. Standaardpraktijken maken echter gebruik van afwijzingssteekproeven, waarbij incorrecte redeneringsvoorbeelden worden weggegooid -- waardevolle, maar vaak onderbenutte gegevens. Dit artikel behandelt de kritieke vraag: Hoe kunnen zowel positieve als negatieve gedistilleerde redeneringssporen effectief worden benut om de redeneerprestaties van LLM's in een offline omgeving te maximaliseren? Hiertoe stellen we Reinforcement Distillation (REDI) voor, een raamwerk in twee fasen. Fase 1 leert van positieve sporen via Supervised Fine-Tuning (SFT). Fase 2 verfijnt het model verder met behulp van zowel positieve als negatieve sporen door middel van ons voorgestelde REDI-doel. Dit nieuwe doel is een eenvoudige, referentievrije verliesfunctie die gevestigde methoden zoals DPO en SimPO in deze distillatiecontext overtreft. Onze empirische evaluaties tonen de superioriteit van REDI aan ten opzichte van baseline Rejection Sampling SFT of SFT gecombineerd met DPO/SimPO bij wiskundige redeneertaken. Opmerkelijk is dat het Qwen-REDI-1.5B-model, na-getraind op slechts 131k positieve en negatieve voorbeelden uit de open Open-R1-dataset, een score van 83,1% behaalt op MATH-500 (pass@1). De prestaties komen overeen met of overtreffen die van DeepSeek-R1-Distill-Qwen-1.5B (een model na-getraind op 800k propriëtaire gegevens) op verschillende wiskundige redeneerbenchmarks, waarmee een nieuwe state-of-the-art wordt gevestigd voor 1.5B-modellen die offline zijn na-getraind met openbaar beschikbare gegevens.
English
Recent advances in model distillation demonstrate that data from advanced
reasoning models (e.g., DeepSeek-R1, OpenAI's o1) can effectively transfer
complex reasoning abilities to smaller, efficient student models. However,
standard practices employ rejection sampling, discarding incorrect reasoning
examples -- valuable, yet often underutilized data. This paper addresses the
critical question: How can both positive and negative distilled reasoning
traces be effectively leveraged to maximize LLM reasoning performance in an
offline setting? To this end, We propose Reinforcement Distillation (REDI), a
two-stage framework. Stage 1 learns from positive traces via Supervised
Fine-Tuning (SFT). Stage 2 further refines the model using both positive and
negative traces through our proposed REDI objective. This novel objective is a
simple, reference-free loss function that outperforms established methods like
DPO and SimPO in this distillation context. Our empirical evaluations
demonstrate REDI's superiority over baseline Rejection Sampling SFT or SFT
combined with DPO/SimPO on mathematical reasoning tasks. Notably, the
Qwen-REDI-1.5B model, post-trained on just 131k positive and negative examples
from the open Open-R1 dataset, achieves an 83.1% score on MATH-500 (pass@1).
Its performance matches or surpasses that of DeepSeek-R1-Distill-Qwen-1.5B (a
model post-trained on 800k proprietary data) across various mathematical
reasoning benchmarks, establishing a new state-of-the-art for 1.5B models
post-trained offline with openly available data.