ChatPaper.aiChatPaper

Exploiter les signaux négatifs : Distillation par renforcement à partir des données de l'enseignant pour le raisonnement des grands modèles de langage

Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning

May 30, 2025
Auteurs: Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi
cs.AI

Résumé

Les récents progrès en distillation de modèles démontrent que les données provenant de modèles de raisonnement avancés (par exemple, DeepSeek-R1, o1 d'OpenAI) peuvent transférer efficacement des capacités de raisonnement complexes à des modèles étudiants plus petits et efficaces. Cependant, les pratiques standard utilisent l'échantillonnage par rejet, écartant les exemples de raisonnement incorrects — des données précieuses, mais souvent sous-utilisées. Cet article aborde la question cruciale : Comment exploiter efficacement à la fois les traces de raisonnement distillées positives et négatives pour maximiser les performances de raisonnement des LLM dans un contexte hors ligne ? À cette fin, nous proposons la Distillation par Renforcement (REDI), un cadre en deux étapes. L'étape 1 apprend à partir des traces positives via un Réglage Supervisé (SFT). L'étape 2 affine davantage le modèle en utilisant à la fois les traces positives et négatives grâce à notre objectif REDI proposé. Cet objectif novateur est une fonction de perte simple et sans référence qui surpasse les méthodes établies comme DPO et SimPO dans ce contexte de distillation. Nos évaluations empiriques démontrent la supériorité de REDI par rapport aux bases de référence que sont le SFT par échantillonnage par rejet ou le SFT combiné à DPO/SimPO sur des tâches de raisonnement mathématique. Notamment, le modèle Qwen-REDI-1.5B, post-entraîné sur seulement 131 000 exemples positifs et négatifs provenant du jeu de données ouvert Open-R1, atteint un score de 83,1 % sur MATH-500 (pass@1). Ses performances égalent ou surpassent celles de DeepSeek-R1-Distill-Qwen-1.5B (un modèle post-entraîné sur 800 000 données propriétaires) sur divers benchmarks de raisonnement mathématique, établissant un nouvel état de l'art pour les modèles de 1,5B post-entraînés hors ligne avec des données ouvertement disponibles.
English
Recent advances in model distillation demonstrate that data from advanced reasoning models (e.g., DeepSeek-R1, OpenAI's o1) can effectively transfer complex reasoning abilities to smaller, efficient student models. However, standard practices employ rejection sampling, discarding incorrect reasoning examples -- valuable, yet often underutilized data. This paper addresses the critical question: How can both positive and negative distilled reasoning traces be effectively leveraged to maximize LLM reasoning performance in an offline setting? To this end, We propose Reinforcement Distillation (REDI), a two-stage framework. Stage 1 learns from positive traces via Supervised Fine-Tuning (SFT). Stage 2 further refines the model using both positive and negative traces through our proposed REDI objective. This novel objective is a simple, reference-free loss function that outperforms established methods like DPO and SimPO in this distillation context. Our empirical evaluations demonstrate REDI's superiority over baseline Rejection Sampling SFT or SFT combined with DPO/SimPO on mathematical reasoning tasks. Notably, the Qwen-REDI-1.5B model, post-trained on just 131k positive and negative examples from the open Open-R1 dataset, achieves an 83.1% score on MATH-500 (pass@1). Its performance matches or surpasses that of DeepSeek-R1-Distill-Qwen-1.5B (a model post-trained on 800k proprietary data) across various mathematical reasoning benchmarks, establishing a new state-of-the-art for 1.5B models post-trained offline with openly available data.
PDF93June 2, 2025