Light-R1: Curriculum SFT, DPO en RL voor Lange COT vanaf Scratch en Daarbuiten
Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
March 13, 2025
Auteurs: Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang
cs.AI
Samenvatting
Dit artikel presenteert ons werk aan de Light-R1-serie, waarbij modellen, data en code allemaal vrijgegeven zijn.
We richten ons eerst op het trainen van lange COT-modellen vanaf nul, specifiek uitgaande van modellen die aanvankelijk geen lange COT-capaciteiten hadden. Met behulp van een curriculumtrainingsrecept bestaande uit tweefasen SFT en semi-on-policy DPO, trainen we ons model Light-R1-32B vanuit Qwen2.5-32B-Instruct, wat resulteert in superieure wiskundige prestaties vergeleken met DeepSeek-R1-Distill-Qwen-32B. Ondanks dat het uitsluitend getraind is op wiskundige data, toont Light-R1-32B sterke generalisatie over andere domeinen. In de daaropvolgende fase van dit werk benadrukken we het significante voordeel van de 3k dataset die is samengesteld voor de tweede SFT-fase bij het verbeteren van andere modellen. Door DeepSeek-R1-Distilled modellen te finetunen met behulp van deze dataset, verkrijgen we nieuwe SOTA-modellen in 7B en 14B, terwijl het 32B-model, Light-R1-32B-DS, vergelijkbaar presteerde met QwQ-32B en DeepSeek-R1.
Verder breiden we ons werk uit door reinforcement learning, specifiek GRPO, toe te passen op lange-COT-modellen om de redeneerprestaties verder te verbeteren. We trainen met succes ons laatste Light-R1-14B-DS met RL, waarmee we SOTA-prestaties bereiken onder 14B-parametermodellen in wiskunde. Met AIME24 & 25-scores van respectievelijk 74.0 en 60.2, overtreft Light-R1-14B-DS zelfs veel 32B-modellen en DeepSeek-R1-Distill-Llama-70B. De RL-training vertoont ook het verwachte gedrag, met een gelijktijdige toename in responslengte en beloningsscore.
De Light-R1-serie van werk valideert het trainen van lange-COT-modellen vanaf nul, toont de kunst in SFT-data en geeft SOTA-modellen vrij van RL.
English
This paper presents our work on the Light-R1 series, with models, data, and
code all released.
We first focus on training long COT models from scratch, specifically
starting from models initially lacking long COT capabilities. Using a
curriculum training recipe consisting of two-stage SFT and semi-on-policy DPO,
we train our model Light-R1-32B from Qwen2.5-32B-Instruct, resulting in
superior math performance compared to DeepSeek-R1-Distill-Qwen-32B. Despite
being trained exclusively on math data, Light-R1-32B shows strong
generalization across other domains. In the subsequent phase of this work, we
highlight the significant benefit of the 3k dataset constructed for the second
SFT stage on enhancing other models. By fine-tuning DeepSeek-R1-Distilled
models using this dataset, we obtain new SOTA models in 7B and 14B, while the
32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1.
Furthermore, we extend our work by applying reinforcement learning,
specifically GRPO, on long-COT models to further improve reasoning performance.
We successfully train our final Light-R1-14B-DS with RL, achieving SOTA
performance among 14B parameter models in math. With AIME24 & 25 scores of 74.0
and 60.2 respectively, Light-R1-14B-DS surpasses even many 32B models and
DeepSeek-R1-Distill-Llama-70B. Its RL training also exhibits well expected
behavior, showing simultaneous increase in response length and reward score.
The Light-R1 series of work validates training long-COT models from scratch,
showcases the art in SFT data and releases SOTA models from RL.Summary
AI-Generated Summary