負の信号の活用:LLM推論のための教師データからの強化学習蒸留
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning
May 30, 2025
著者: Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi
cs.AI
要旨
近年のモデル蒸留の進展により、高度な推論モデル(例:DeepSeek-R1、OpenAIのo1)からのデータが、複雑な推論能力をより小さく効率的な学生モデルに効果的に転移できることが示されている。しかし、標準的な手法ではリジェクトサンプリングが採用され、誤った推論例が破棄されている。これらの例は貴重なデータであるにもかかわらず、十分に活用されていない。本論文では、オフライン設定において、LLMの推論性能を最大化するために、正例と負例の両方の蒸留推論トレースをどのように効果的に活用できるかという重要な問いに取り組む。この目的のために、我々はReinforcement Distillation(REDI)という2段階のフレームワークを提案する。第1段階では、正例のトレースから教師あり微調整(SFT)を通じて学習を行う。第2段階では、提案するREDI目的関数を用いて、正例と負例の両方のトレースを活用してモデルをさらに洗練させる。この新しい目的関数は、シンプルで参照不要な損失関数であり、この蒸留の文脈において、DPOやSimPOなどの既存の手法を凌駕する。我々の実験的評価は、数学的推論タスクにおいて、REDIがベースラインのリジェクトサンプリングSFTやSFTとDPO/SimPOを組み合わせた手法を上回ることを示している。特に、Open-R1データセットからのわずか131kの正例と負例を用いてポストトレーニングされたQwen-REDI-1.5Bモデルは、MATH-500(pass@1)で83.1%のスコアを達成した。その性能は、800kのプロプライエタリデータを用いてポストトレーニングされたDeepSeek-R1-Distill-Qwen-1.5Bモデルと同等またはそれを上回り、公開されているデータを用いてオフラインでポストトレーニングされた1.5Bモデルの新たな最先端を確立した。
English
Recent advances in model distillation demonstrate that data from advanced
reasoning models (e.g., DeepSeek-R1, OpenAI's o1) can effectively transfer
complex reasoning abilities to smaller, efficient student models. However,
standard practices employ rejection sampling, discarding incorrect reasoning
examples -- valuable, yet often underutilized data. This paper addresses the
critical question: How can both positive and negative distilled reasoning
traces be effectively leveraged to maximize LLM reasoning performance in an
offline setting? To this end, We propose Reinforcement Distillation (REDI), a
two-stage framework. Stage 1 learns from positive traces via Supervised
Fine-Tuning (SFT). Stage 2 further refines the model using both positive and
negative traces through our proposed REDI objective. This novel objective is a
simple, reference-free loss function that outperforms established methods like
DPO and SimPO in this distillation context. Our empirical evaluations
demonstrate REDI's superiority over baseline Rejection Sampling SFT or SFT
combined with DPO/SimPO on mathematical reasoning tasks. Notably, the
Qwen-REDI-1.5B model, post-trained on just 131k positive and negative examples
from the open Open-R1 dataset, achieves an 83.1% score on MATH-500 (pass@1).
Its performance matches or surpasses that of DeepSeek-R1-Distill-Qwen-1.5B (a
model post-trained on 800k proprietary data) across various mathematical
reasoning benchmarks, establishing a new state-of-the-art for 1.5B models
post-trained offline with openly available data.