Light-R1: Учебный план SFT, DPO и RL для длинных цепочек рассуждений с нуля и за их пределами

Аннотация

В данной статье представлены результаты нашей работы над серией Light-R1, включая модели, данные и код, которые были опубликованы. В первую очередь мы сосредоточились на обучении моделей с длинными цепочками рассуждений (COT) с нуля, начиная с моделей, изначально не обладающих такими возможностями. Используя учебный план, состоящий из двухэтапного обучения с учителем (SFT) и полуонлайнового обучения с предпочтениями (DPO), мы обучили нашу модель Light-R1-32B на основе Qwen2.5-32B-Instruct, достигнув превосходных результатов в математических задачах по сравнению с DeepSeek-R1-Distill-Qwen-32B. Несмотря на обучение исключительно на математических данных, Light-R1-32B демонстрирует сильную обобщающую способность в других областях. В следующем этапе работы мы подчеркиваем значительную пользу набора данных из 3 тысяч примеров, созданного для второго этапа SFT, в улучшении других моделей. Настроив модели DeepSeek-R1-Distilled с использованием этого набора данных, мы получили новые модели, устанавливающие рекорды (SOTA) для 7B и 14B, в то время как модель 32B, Light-R1-32B-DS, показала результаты, сопоставимые с QwQ-32B и DeepSeek-R1. Кроме того, мы расширили нашу работу, применив обучение с подкреплением, в частности метод GRPO, к моделям с длинными COT для дальнейшего улучшения способностей к рассуждению. Мы успешно обучили нашу финальную модель Light-R1-14B-DS с использованием RL, достигнув рекордных результатов среди моделей с 14 миллиардами параметров в математических задачах. С показателями AIME24 и AIME25, равными 74.0 и 60.2 соответственно, Light-R1-14B-DS превосходит даже многие модели с 32 миллиардами параметров и DeepSeek-R1-Distill-Llama-70B. Обучение с подкреплением также демонстрирует ожидаемое поведение, показывая одновременное увеличение длины ответа и оценки вознаграждения. Серия работ Light-R1 подтверждает возможность обучения моделей с длинными COT с нуля, демонстрирует искусство в создании данных для SFT и представляет модели, устанавливающие рекорды, благодаря обучению с подкреплением.

English

This paper presents our work on the Light-R1 series, with models, data, and code all released. We first focus on training long COT models from scratch, specifically starting from models initially lacking long COT capabilities. Using a curriculum training recipe consisting of two-stage SFT and semi-on-policy DPO, we train our model Light-R1-32B from Qwen2.5-32B-Instruct, resulting in superior math performance compared to DeepSeek-R1-Distill-Qwen-32B. Despite being trained exclusively on math data, Light-R1-32B shows strong generalization across other domains. In the subsequent phase of this work, we highlight the significant benefit of the 3k dataset constructed for the second SFT stage on enhancing other models. By fine-tuning DeepSeek-R1-Distilled models using this dataset, we obtain new SOTA models in 7B and 14B, while the 32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1. Furthermore, we extend our work by applying reinforcement learning, specifically GRPO, on long-COT models to further improve reasoning performance. We successfully train our final Light-R1-14B-DS with RL, achieving SOTA performance among 14B parameter models in math. With AIME24 & 25 scores of 74.0 and 60.2 respectively, Light-R1-14B-DS surpasses even many 32B models and DeepSeek-R1-Distill-Llama-70B. Its RL training also exhibits well expected behavior, showing simultaneous increase in response length and reward score. The Light-R1 series of work validates training long-COT models from scratch, showcases the art in SFT data and releases SOTA models from RL.

Light-R1: Учебный план SFT, DPO и RL для длинных цепочек рассуждений с нуля и за их пределами

Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond

Аннотация

Support