Light-R1: Curriculum SFT, DPO e RL per il Ragionamento a Catena Lungo (COT) da Zero e Oltre
Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
March 13, 2025
Autori: Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang
cs.AI
Abstract
Questo articolo presenta il nostro lavoro sulla serie Light-R1, con modelli, dati e codice tutti rilasciati pubblicamente.
Iniziamo concentrandoci sull'addestramento di modelli COT lunghi da zero, partendo specificamente da modelli che inizialmente non possiedono capacità COT lunghe. Utilizzando una ricetta di addestramento basata su un curriculum composto da SFT in due fasi e DPO semi-on-policy, addestriamo il nostro modello Light-R1-32B a partire da Qwen2.5-32B-Instruct, ottenendo prestazioni matematiche superiori rispetto a DeepSeek-R1-Distill-Qwen-32B. Nonostante sia stato addestrato esclusivamente su dati matematici, Light-R1-32B dimostra una forte generalizzazione in altri domini. Nella fase successiva di questo lavoro, evidenziamo il significativo vantaggio del dataset da 3k costruito per la seconda fase di SFT nel miglioramento di altri modelli. Ottimizzando i modelli DeepSeek-R1-Distilled utilizzando questo dataset, otteniamo nuovi modelli SOTA in 7B e 14B, mentre il modello 32B, Light-R1-32B-DS, ha performato in modo comparabile a QwQ-32B e DeepSeek-R1.
Inoltre, estendiamo il nostro lavoro applicando l'apprendimento per rinforzo, in particolare GRPO, su modelli COT lunghi per migliorare ulteriormente le prestazioni di ragionamento. Addestriamo con successo il nostro modello finale Light-R1-14B-DS con RL, raggiungendo prestazioni SOTA tra i modelli con 14B parametri in matematica. Con punteggi AIME24 e 25 rispettivamente di 74.0 e 60.2, Light-R1-14B-DS supera persino molti modelli 32B e DeepSeek-R1-Distill-Llama-70B. Il suo addestramento RL mostra anche un comportamento atteso, con un aumento simultaneo della lunghezza della risposta e del punteggio di ricompensa.
La serie di lavori Light-R1 valida l'addestramento di modelli COT lunghi da zero, dimostra l'arte nei dati SFT e rilascia modelli SOTA ottenuti con RL.
English
This paper presents our work on the Light-R1 series, with models, data, and
code all released.
We first focus on training long COT models from scratch, specifically
starting from models initially lacking long COT capabilities. Using a
curriculum training recipe consisting of two-stage SFT and semi-on-policy DPO,
we train our model Light-R1-32B from Qwen2.5-32B-Instruct, resulting in
superior math performance compared to DeepSeek-R1-Distill-Qwen-32B. Despite
being trained exclusively on math data, Light-R1-32B shows strong
generalization across other domains. In the subsequent phase of this work, we
highlight the significant benefit of the 3k dataset constructed for the second
SFT stage on enhancing other models. By fine-tuning DeepSeek-R1-Distilled
models using this dataset, we obtain new SOTA models in 7B and 14B, while the
32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1.
Furthermore, we extend our work by applying reinforcement learning,
specifically GRPO, on long-COT models to further improve reasoning performance.
We successfully train our final Light-R1-14B-DS with RL, achieving SOTA
performance among 14B parameter models in math. With AIME24 & 25 scores of 74.0
and 60.2 respectively, Light-R1-14B-DS surpasses even many 32B models and
DeepSeek-R1-Distill-Llama-70B. Its RL training also exhibits well expected
behavior, showing simultaneous increase in response length and reward score.
The Light-R1 series of work validates training long-COT models from scratch,
showcases the art in SFT data and releases SOTA models from RL.