Использование негативных сигналов: дистилляция с подкреплением на основе данных учителя для рассуждений в больших языковых моделях
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning
May 30, 2025
Авторы: Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi
cs.AI
Аннотация
Последние достижения в области дистилляции моделей демонстрируют, что данные от продвинутых моделей рассуждений (например, DeepSeek-R1, OpenAI's o1) могут эффективно передавать сложные способности к рассуждениям более компактным и эффективным студенческим моделям. Однако стандартные подходы используют метод отбраковки, исключая примеры с некорректными рассуждениями — ценные, но часто недооцененные данные. В данной статье рассматривается ключевой вопрос: как можно эффективно использовать как положительные, так и отрицательные дистиллированные траектории рассуждений для максимизации производительности языковых моделей (LLM) в оффлайн-режиме? Для этого мы предлагаем Reinforcement Distillation (REDI), двухэтапный фреймворк. На первом этапе модель обучается на положительных траекториях с помощью Supervised Fine-Tuning (SFT). На втором этапе модель дополнительно улучшается с использованием как положительных, так и отрицательных траекторий через предложенный нами REDI-объектив. Этот новый объектив представляет собой простую, не требующую эталонных данных функцию потерь, которая превосходит устоявшиеся методы, такие как DPO и SimPO, в контексте дистилляции. Наши эмпирические оценки демонстрируют превосходство REDI над базовыми подходами, такими как Rejection Sampling SFT или SFT в сочетании с DPO/SimPO, в задачах математического рассуждения. Примечательно, что модель Qwen-REDI-1.5B, дообученная всего на 131 тысяче положительных и отрицательных примеров из открытого набора данных Open-R1, достигает результата 83,1% на тесте MATH-500 (pass@1). Её производительность соответствует или превосходит показатели модели DeepSeek-R1-Distill-Qwen-1.5B (дообученной на 800 тысячах проприетарных данных) на различных тестах математического рассуждения, устанавливая новый эталон для 1,5-миллиардных моделей, дообученных оффлайн с использованием открыто доступных данных.
English
Recent advances in model distillation demonstrate that data from advanced
reasoning models (e.g., DeepSeek-R1, OpenAI's o1) can effectively transfer
complex reasoning abilities to smaller, efficient student models. However,
standard practices employ rejection sampling, discarding incorrect reasoning
examples -- valuable, yet often underutilized data. This paper addresses the
critical question: How can both positive and negative distilled reasoning
traces be effectively leveraged to maximize LLM reasoning performance in an
offline setting? To this end, We propose Reinforcement Distillation (REDI), a
two-stage framework. Stage 1 learns from positive traces via Supervised
Fine-Tuning (SFT). Stage 2 further refines the model using both positive and
negative traces through our proposed REDI objective. This novel objective is a
simple, reference-free loss function that outperforms established methods like
DPO and SimPO in this distillation context. Our empirical evaluations
demonstrate REDI's superiority over baseline Rejection Sampling SFT or SFT
combined with DPO/SimPO on mathematical reasoning tasks. Notably, the
Qwen-REDI-1.5B model, post-trained on just 131k positive and negative examples
from the open Open-R1 dataset, achieves an 83.1% score on MATH-500 (pass@1).
Its performance matches or surpasses that of DeepSeek-R1-Distill-Qwen-1.5B (a
model post-trained on 800k proprietary data) across various mathematical
reasoning benchmarks, establishing a new state-of-the-art for 1.5B models
post-trained offline with openly available data.