Aprovechando Señales Negativas: Distilación de Refuerzo a partir de Datos del Profesor para el Razonamiento en Modelos de Lenguaje de Gran Escala
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning
May 30, 2025
Autores: Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi
cs.AI
Resumen
Los avances recientes en la destilación de modelos demuestran que los datos provenientes de modelos avanzados de razonamiento (por ejemplo, DeepSeek-R1, o1 de OpenAI) pueden transferir efectivamente habilidades de razonamiento complejo a modelos estudiantiles más pequeños y eficientes. Sin embargo, las prácticas estándar emplean muestreo por rechazo, descartando ejemplos de razonamiento incorrecto, que son datos valiosos pero a menudo subutilizados. Este artículo aborda la pregunta crítica: ¿Cómo se pueden aprovechar de manera efectiva tanto las trazas de razonamiento destiladas positivas como las negativas para maximizar el rendimiento de razonamiento de los LLM en un entorno fuera de línea? Con este fin, proponemos Destilación por Refuerzo (REDI), un marco de trabajo de dos etapas. La Etapa 1 aprende de las trazas positivas mediante Ajuste Fino Supervisado (SFT). La Etapa 2 refina aún más el modelo utilizando tanto trazas positivas como negativas a través de nuestro objetivo REDI propuesto. Este objetivo novedoso es una función de pérdida simple y sin referencia que supera a métodos establecidos como DPO y SimPO en este contexto de destilación. Nuestras evaluaciones empíricas demuestran la superioridad de REDI sobre las líneas base de SFT con muestreo por rechazo o SFT combinado con DPO/SimPO en tareas de razonamiento matemático. Notablemente, el modelo Qwen-REDI-1.5B, post-entrenado con solo 131k ejemplos positivos y negativos del conjunto de datos abierto Open-R1, alcanza un puntaje del 83.1% en MATH-500 (pass@1). Su rendimiento iguala o supera al de DeepSeek-R1-Distill-Qwen-1.5B (un modelo post-entrenado con 800k datos propietarios) en varios puntos de referencia de razonamiento matemático, estableciendo un nuevo estado del arte para modelos de 1.5B post-entrenados fuera de línea con datos disponibles públicamente.
English
Recent advances in model distillation demonstrate that data from advanced
reasoning models (e.g., DeepSeek-R1, OpenAI's o1) can effectively transfer
complex reasoning abilities to smaller, efficient student models. However,
standard practices employ rejection sampling, discarding incorrect reasoning
examples -- valuable, yet often underutilized data. This paper addresses the
critical question: How can both positive and negative distilled reasoning
traces be effectively leveraged to maximize LLM reasoning performance in an
offline setting? To this end, We propose Reinforcement Distillation (REDI), a
two-stage framework. Stage 1 learns from positive traces via Supervised
Fine-Tuning (SFT). Stage 2 further refines the model using both positive and
negative traces through our proposed REDI objective. This novel objective is a
simple, reference-free loss function that outperforms established methods like
DPO and SimPO in this distillation context. Our empirical evaluations
demonstrate REDI's superiority over baseline Rejection Sampling SFT or SFT
combined with DPO/SimPO on mathematical reasoning tasks. Notably, the
Qwen-REDI-1.5B model, post-trained on just 131k positive and negative examples
from the open Open-R1 dataset, achieves an 83.1% score on MATH-500 (pass@1).
Its performance matches or surpasses that of DeepSeek-R1-Distill-Qwen-1.5B (a
model post-trained on 800k proprietary data) across various mathematical
reasoning benchmarks, establishing a new state-of-the-art for 1.5B models
post-trained offline with openly available data.