Aproveitando Sinais Negativos: Distilação de Reforço a partir de Dados do Professor para Raciocínio em LLMs
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning
May 30, 2025
Autores: Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi
cs.AI
Resumo
Avanços recentes em destilação de modelos demonstram que dados de modelos avançados de raciocínio (por exemplo, DeepSeek-R1, OpenAI's o1) podem transferir efetivamente habilidades complexas de raciocínio para modelos menores e eficientes, conhecidos como modelos estudante. No entanto, práticas padrão empregam amostragem por rejeição, descartando exemplos de raciocínio incorretos — dados valiosos, mas frequentemente subutilizados. Este artigo aborda a questão crítica: Como podemos aproveitar efetivamente tanto os rastros de raciocínio destilados positivos quanto os negativos para maximizar o desempenho de raciocínio de LLMs em um cenário offline? Para isso, propomos o Reinforcement Distillation (REDI), um framework de duas etapas. A Etapa 1 aprende com rastros positivos por meio de Ajuste Fino Supervisionado (SFT). A Etapa 2 refina ainda mais o modelo usando tanto rastros positivos quanto negativos através de nosso objetivo REDI proposto. Este novo objetivo é uma função de perda simples e sem referência que supera métodos estabelecidos como DPO e SimPO neste contexto de destilação. Nossas avaliações empíricas demonstram a superioridade do REDI sobre a linha de base de SFT com Amostragem por Rejeição ou SFT combinado com DPO/SimPO em tarefas de raciocínio matemático. Notavelmente, o modelo Qwen-REDI-1.5B, pós-treinado com apenas 131 mil exemplos positivos e negativos do conjunto de dados aberto Open-R1, alcança uma pontuação de 83,1% no MATH-500 (pass@1). Seu desempenho iguala ou supera o do DeepSeek-R1-Distill-Qwen-1.5B (um modelo pós-treinado com 800 mil dados proprietários) em vários benchmarks de raciocínio matemático, estabelecendo um novo estado da arte para modelos de 1.5B pós-treinados offline com dados abertamente disponíveis.
English
Recent advances in model distillation demonstrate that data from advanced
reasoning models (e.g., DeepSeek-R1, OpenAI's o1) can effectively transfer
complex reasoning abilities to smaller, efficient student models. However,
standard practices employ rejection sampling, discarding incorrect reasoning
examples -- valuable, yet often underutilized data. This paper addresses the
critical question: How can both positive and negative distilled reasoning
traces be effectively leveraged to maximize LLM reasoning performance in an
offline setting? To this end, We propose Reinforcement Distillation (REDI), a
two-stage framework. Stage 1 learns from positive traces via Supervised
Fine-Tuning (SFT). Stage 2 further refines the model using both positive and
negative traces through our proposed REDI objective. This novel objective is a
simple, reference-free loss function that outperforms established methods like
DPO and SimPO in this distillation context. Our empirical evaluations
demonstrate REDI's superiority over baseline Rejection Sampling SFT or SFT
combined with DPO/SimPO on mathematical reasoning tasks. Notably, the
Qwen-REDI-1.5B model, post-trained on just 131k positive and negative examples
from the open Open-R1 dataset, achieves an 83.1% score on MATH-500 (pass@1).
Its performance matches or surpasses that of DeepSeek-R1-Distill-Qwen-1.5B (a
model post-trained on 800k proprietary data) across various mathematical
reasoning benchmarks, establishing a new state-of-the-art for 1.5B models
post-trained offline with openly available data.