ChatPaper.aiChatPaper

Aproveitando Sinais Negativos: Distilação de Reforço a partir de Dados do Professor para Raciocínio em LLMs

Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning

May 30, 2025
Autores: Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi
cs.AI

Resumo

Avanços recentes em destilação de modelos demonstram que dados de modelos avançados de raciocínio (por exemplo, DeepSeek-R1, OpenAI's o1) podem transferir efetivamente habilidades complexas de raciocínio para modelos menores e eficientes, conhecidos como modelos estudante. No entanto, práticas padrão empregam amostragem por rejeição, descartando exemplos de raciocínio incorretos — dados valiosos, mas frequentemente subutilizados. Este artigo aborda a questão crítica: Como podemos aproveitar efetivamente tanto os rastros de raciocínio destilados positivos quanto os negativos para maximizar o desempenho de raciocínio de LLMs em um cenário offline? Para isso, propomos o Reinforcement Distillation (REDI), um framework de duas etapas. A Etapa 1 aprende com rastros positivos por meio de Ajuste Fino Supervisionado (SFT). A Etapa 2 refina ainda mais o modelo usando tanto rastros positivos quanto negativos através de nosso objetivo REDI proposto. Este novo objetivo é uma função de perda simples e sem referência que supera métodos estabelecidos como DPO e SimPO neste contexto de destilação. Nossas avaliações empíricas demonstram a superioridade do REDI sobre a linha de base de SFT com Amostragem por Rejeição ou SFT combinado com DPO/SimPO em tarefas de raciocínio matemático. Notavelmente, o modelo Qwen-REDI-1.5B, pós-treinado com apenas 131 mil exemplos positivos e negativos do conjunto de dados aberto Open-R1, alcança uma pontuação de 83,1% no MATH-500 (pass@1). Seu desempenho iguala ou supera o do DeepSeek-R1-Distill-Qwen-1.5B (um modelo pós-treinado com 800 mil dados proprietários) em vários benchmarks de raciocínio matemático, estabelecendo um novo estado da arte para modelos de 1.5B pós-treinados offline com dados abertamente disponíveis.
English
Recent advances in model distillation demonstrate that data from advanced reasoning models (e.g., DeepSeek-R1, OpenAI's o1) can effectively transfer complex reasoning abilities to smaller, efficient student models. However, standard practices employ rejection sampling, discarding incorrect reasoning examples -- valuable, yet often underutilized data. This paper addresses the critical question: How can both positive and negative distilled reasoning traces be effectively leveraged to maximize LLM reasoning performance in an offline setting? To this end, We propose Reinforcement Distillation (REDI), a two-stage framework. Stage 1 learns from positive traces via Supervised Fine-Tuning (SFT). Stage 2 further refines the model using both positive and negative traces through our proposed REDI objective. This novel objective is a simple, reference-free loss function that outperforms established methods like DPO and SimPO in this distillation context. Our empirical evaluations demonstrate REDI's superiority over baseline Rejection Sampling SFT or SFT combined with DPO/SimPO on mathematical reasoning tasks. Notably, the Qwen-REDI-1.5B model, post-trained on just 131k positive and negative examples from the open Open-R1 dataset, achieves an 83.1% score on MATH-500 (pass@1). Its performance matches or surpasses that of DeepSeek-R1-Distill-Qwen-1.5B (a model post-trained on 800k proprietary data) across various mathematical reasoning benchmarks, establishing a new state-of-the-art for 1.5B models post-trained offline with openly available data.
PDF83June 2, 2025