Light-R1: Учебный план SFT, DPO и RL для длинных цепочек рассуждений с нуля и за их пределами
Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
March 13, 2025
Авторы: Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang
cs.AI
Аннотация
В данной статье представлены результаты нашей работы над серией Light-R1, включая модели, данные и код, которые были опубликованы.
В первую очередь мы сосредоточились на обучении моделей с длинными цепочками рассуждений (COT) с нуля, начиная с моделей, изначально не обладающих такими возможностями. Используя учебный план, состоящий из двухэтапного обучения с учителем (SFT) и полуонлайнового обучения с предпочтениями (DPO), мы обучили нашу модель Light-R1-32B на основе Qwen2.5-32B-Instruct, достигнув превосходных результатов в математических задачах по сравнению с DeepSeek-R1-Distill-Qwen-32B. Несмотря на обучение исключительно на математических данных, Light-R1-32B демонстрирует сильную обобщающую способность в других областях. В следующем этапе работы мы подчеркиваем значительную пользу набора данных из 3 тысяч примеров, созданного для второго этапа SFT, в улучшении других моделей. Настроив модели DeepSeek-R1-Distilled с использованием этого набора данных, мы получили новые модели, устанавливающие рекорды (SOTA) для 7B и 14B, в то время как модель 32B, Light-R1-32B-DS, показала результаты, сопоставимые с QwQ-32B и DeepSeek-R1.
Кроме того, мы расширили нашу работу, применив обучение с подкреплением, в частности метод GRPO, к моделям с длинными COT для дальнейшего улучшения способностей к рассуждению. Мы успешно обучили нашу финальную модель Light-R1-14B-DS с использованием RL, достигнув рекордных результатов среди моделей с 14 миллиардами параметров в математических задачах. С показателями AIME24 и AIME25, равными 74.0 и 60.2 соответственно, Light-R1-14B-DS превосходит даже многие модели с 32 миллиардами параметров и DeepSeek-R1-Distill-Llama-70B. Обучение с подкреплением также демонстрирует ожидаемое поведение, показывая одновременное увеличение длины ответа и оценки вознаграждения.
Серия работ Light-R1 подтверждает возможность обучения моделей с длинными COT с нуля, демонстрирует искусство в создании данных для SFT и представляет модели, устанавливающие рекорды, благодаря обучению с подкреплением.
English
This paper presents our work on the Light-R1 series, with models, data, and
code all released.
We first focus on training long COT models from scratch, specifically
starting from models initially lacking long COT capabilities. Using a
curriculum training recipe consisting of two-stage SFT and semi-on-policy DPO,
we train our model Light-R1-32B from Qwen2.5-32B-Instruct, resulting in
superior math performance compared to DeepSeek-R1-Distill-Qwen-32B. Despite
being trained exclusively on math data, Light-R1-32B shows strong
generalization across other domains. In the subsequent phase of this work, we
highlight the significant benefit of the 3k dataset constructed for the second
SFT stage on enhancing other models. By fine-tuning DeepSeek-R1-Distilled
models using this dataset, we obtain new SOTA models in 7B and 14B, while the
32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1.
Furthermore, we extend our work by applying reinforcement learning,
specifically GRPO, on long-COT models to further improve reasoning performance.
We successfully train our final Light-R1-14B-DS with RL, achieving SOTA
performance among 14B parameter models in math. With AIME24 & 25 scores of 74.0
and 60.2 respectively, Light-R1-14B-DS surpasses even many 32B models and
DeepSeek-R1-Distill-Llama-70B. Its RL training also exhibits well expected
behavior, showing simultaneous increase in response length and reward score.
The Light-R1 series of work validates training long-COT models from scratch,
showcases the art in SFT data and releases SOTA models from RL.Summary
AI-Generated Summary