Sfruttare i Segnali Negativi: Distillazione di Rinforzo dai Dati dell'Insegnante per il Ragionamento dei Modelli Linguistici di Grande Dimensione
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning
May 30, 2025
Autori: Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi
cs.AI
Abstract
I recenti progressi nella distillazione di modelli dimostrano che i dati provenienti da modelli avanzati di ragionamento (ad esempio, DeepSeek-R1, OpenAI's o1) possono trasferire efficacemente capacità di ragionamento complesso a modelli studente più piccoli ed efficienti. Tuttavia, le pratiche standard impiegano il campionamento per rifiuto, scartando esempi di ragionamento errati -- dati preziosi, ma spesso sottoutilizzati. Questo articolo affronta la questione critica: come possono essere sfruttati efficacemente sia i tracciati di ragionamento distillati positivi che quelli negativi per massimizzare le prestazioni di ragionamento dei LLM in un contesto offline? A tal fine, proponiamo la Distillazione con Rinforzo (REDI), un framework a due fasi. La Fase 1 apprende dai tracciati positivi tramite Fine-Tuning Supervisionato (SFT). La Fase 2 perfeziona ulteriormente il modello utilizzando sia i tracciati positivi che quelli negativi attraverso il nostro obiettivo REDI proposto. Questo nuovo obiettivo è una semplice funzione di perdita senza riferimento che supera metodi consolidati come DPO e SimPO in questo contesto di distillazione. Le nostre valutazioni empiriche dimostrano la superiorità di REDI rispetto alle baseline di SFT con campionamento per rifiuto o SFT combinato con DPO/SimPO in compiti di ragionamento matematico. In particolare, il modello Qwen-REDI-1.5B, addestrato su soli 131k esempi positivi e negativi del dataset aperto Open-R1, raggiunge un punteggio dell'83.1% su MATH-500 (pass@1). Le sue prestazioni eguagliano o superano quelle di DeepSeek-R1-Distill-Qwen-1.5B (un modello addestrato su 800k dati proprietari) su vari benchmark di ragionamento matematico, stabilendo un nuovo stato dell'arte per i modelli da 1.5B addestrati offline con dati disponibili pubblicamente.
English
Recent advances in model distillation demonstrate that data from advanced
reasoning models (e.g., DeepSeek-R1, OpenAI's o1) can effectively transfer
complex reasoning abilities to smaller, efficient student models. However,
standard practices employ rejection sampling, discarding incorrect reasoning
examples -- valuable, yet often underutilized data. This paper addresses the
critical question: How can both positive and negative distilled reasoning
traces be effectively leveraged to maximize LLM reasoning performance in an
offline setting? To this end, We propose Reinforcement Distillation (REDI), a
two-stage framework. Stage 1 learns from positive traces via Supervised
Fine-Tuning (SFT). Stage 2 further refines the model using both positive and
negative traces through our proposed REDI objective. This novel objective is a
simple, reference-free loss function that outperforms established methods like
DPO and SimPO in this distillation context. Our empirical evaluations
demonstrate REDI's superiority over baseline Rejection Sampling SFT or SFT
combined with DPO/SimPO on mathematical reasoning tasks. Notably, the
Qwen-REDI-1.5B model, post-trained on just 131k positive and negative examples
from the open Open-R1 dataset, achieves an 83.1% score on MATH-500 (pass@1).
Its performance matches or surpasses that of DeepSeek-R1-Distill-Qwen-1.5B (a
model post-trained on 800k proprietary data) across various mathematical
reasoning benchmarks, establishing a new state-of-the-art for 1.5B models
post-trained offline with openly available data.