ChatPaper.aiChatPaper

Nutzung negativer Signale: Verstärkungsdestillation aus Lehrer-Daten für das logische Denken von LLMs

Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning

May 30, 2025
Autoren: Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi
cs.AI

Zusammenfassung

Jüngste Fortschritte in der Modell-Distillation zeigen, dass Daten von fortschrittlichen Reasoning-Modellen (z. B. DeepSeek-R1, OpenAI's o1) komplexe Reasoning-Fähigkeiten effektiv auf kleinere, effiziente Schülermodelle übertragen können. Standardpraktiken verwenden jedoch Rejection Sampling, bei dem falsche Reasoning-Beispiele verworfen werden – wertvolle, aber oft ungenutzte Daten. Diese Arbeit behandelt die kritische Frage: Wie können sowohl positive als auch negative destillierte Reasoning-Spuren effektiv genutzt werden, um die Reasoning-Leistung von LLMs in einem Offline-Setting zu maximieren? Zu diesem Zweck schlagen wir Reinforcement Distillation (REDI) vor, ein zweistufiges Framework. Stufe 1 lernt aus positiven Spuren durch Supervised Fine-Tuning (SFT). Stufe 2 verfeinert das Modell weiter unter Verwendung sowohl positiver als auch negativer Spuren durch unser vorgeschlagenes REDI-Ziel. Dieses neuartige Ziel ist eine einfache, referenzfreie Verlustfunktion, die etablierte Methoden wie DPO und SimPO in diesem Distillationskontext übertrifft. Unsere empirischen Auswertungen demonstrieren die Überlegenheit von REDI gegenüber Baseline-Rejection-Sampling-SFT oder SFT in Kombination mit DPO/SimPO bei mathematischen Reasoning-Aufgaben. Bemerkenswert ist, dass das Qwen-REDI-1.5B-Modell, das nach dem Training mit nur 131k positiven und negativen Beispielen aus dem offenen Open-R1-Datensatz trainiert wurde, eine Punktzahl von 83,1 % auf MATH-500 (pass@1) erreicht. Seine Leistung entspricht oder übertrifft die von DeepSeek-R1-Distill-Qwen-1.5B (ein Modell, das mit 800k proprietären Daten nachtrainiert wurde) über verschiedene mathematische Reasoning-Benchmarks hinweg und setzt damit einen neuen Maßstab für 1,5B-Modelle, die offline mit öffentlich verfügbaren Daten nachtrainiert wurden.
English
Recent advances in model distillation demonstrate that data from advanced reasoning models (e.g., DeepSeek-R1, OpenAI's o1) can effectively transfer complex reasoning abilities to smaller, efficient student models. However, standard practices employ rejection sampling, discarding incorrect reasoning examples -- valuable, yet often underutilized data. This paper addresses the critical question: How can both positive and negative distilled reasoning traces be effectively leveraged to maximize LLM reasoning performance in an offline setting? To this end, We propose Reinforcement Distillation (REDI), a two-stage framework. Stage 1 learns from positive traces via Supervised Fine-Tuning (SFT). Stage 2 further refines the model using both positive and negative traces through our proposed REDI objective. This novel objective is a simple, reference-free loss function that outperforms established methods like DPO and SimPO in this distillation context. Our empirical evaluations demonstrate REDI's superiority over baseline Rejection Sampling SFT or SFT combined with DPO/SimPO on mathematical reasoning tasks. Notably, the Qwen-REDI-1.5B model, post-trained on just 131k positive and negative examples from the open Open-R1 dataset, achieves an 83.1% score on MATH-500 (pass@1). Its performance matches or surpasses that of DeepSeek-R1-Distill-Qwen-1.5B (a model post-trained on 800k proprietary data) across various mathematical reasoning benchmarks, establishing a new state-of-the-art for 1.5B models post-trained offline with openly available data.
PDF93June 2, 2025