Light-R1: 長文連鎖思考(COT)のためのカリキュラムSFT、DPO、RLのゼロからの学習とその先へ
Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
March 13, 2025
著者: Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang
cs.AI
要旨
本論文では、Light-R1シリーズに関する我々の研究を紹介し、モデル、データ、コードの全てを公開する。まず、長い連鎖的思考(COT)能力を最初から持たないモデルをゼロから訓練することに焦点を当てる。2段階のSFT(Supervised Fine-Tuning)と半オンラインポリシーのDPO(Direct Preference Optimization)からなるカリキュラム訓練レシピを用いて、Qwen2.5-32B-InstructからLight-R1-32Bを訓練し、DeepSeek-R1-Distill-Qwen-32Bを上回る数学性能を達成した。数学データのみで訓練されたにもかかわらず、Light-R1-32Bは他の領域でも強い汎化性能を示した。次の段階では、第2段階のSFT用に構築された3kデータセットが他のモデルの性能向上に大きく寄与することを強調する。このデータセットを用いてDeepSeek-R1-Distilledモデルを微調整し、7Bと14Bでは新しいSOTAモデルを獲得し、32BモデルであるLight-R1-32B-DSはQwQ-32BおよびDeepSeek-R1と同等の性能を示した。
さらに、長いCOTモデルに対して強化学習、特にGRPO(Generalized Reinforcement Learning with Policy Optimization)を適用し、推論性能をさらに向上させた。最終的に、RLを用いてLight-R1-14B-DSを訓練し、14Bパラメータモデルの中で数学においてSOTA性能を達成した。AIME24とAIME25のスコアはそれぞれ74.0と60.2であり、Light-R1-14B-DSは多くの32BモデルやDeepSeek-R1-Distill-Llama-70Bを凌駕した。RL訓練はまた、応答長と報酬スコアが同時に増加するという期待通りの振る舞いを示した。
Light-R1シリーズの研究は、長いCOTモデルをゼロから訓練することを検証し、SFTデータの技術を披露し、RLからSOTAモデルをリリースすることを実証した。
English
This paper presents our work on the Light-R1 series, with models, data, and
code all released.
We first focus on training long COT models from scratch, specifically
starting from models initially lacking long COT capabilities. Using a
curriculum training recipe consisting of two-stage SFT and semi-on-policy DPO,
we train our model Light-R1-32B from Qwen2.5-32B-Instruct, resulting in
superior math performance compared to DeepSeek-R1-Distill-Qwen-32B. Despite
being trained exclusively on math data, Light-R1-32B shows strong
generalization across other domains. In the subsequent phase of this work, we
highlight the significant benefit of the 3k dataset constructed for the second
SFT stage on enhancing other models. By fine-tuning DeepSeek-R1-Distilled
models using this dataset, we obtain new SOTA models in 7B and 14B, while the
32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1.
Furthermore, we extend our work by applying reinforcement learning,
specifically GRPO, on long-COT models to further improve reasoning performance.
We successfully train our final Light-R1-14B-DS with RL, achieving SOTA
performance among 14B parameter models in math. With AIME24 & 25 scores of 74.0
and 60.2 respectively, Light-R1-14B-DS surpasses even many 32B models and
DeepSeek-R1-Distill-Llama-70B. Its RL training also exhibits well expected
behavior, showing simultaneous increase in response length and reward score.
The Light-R1 series of work validates training long-COT models from scratch,
showcases the art in SFT data and releases SOTA models from RL.Summary
AI-Generated Summary