Light-R1: Plan de estudios SFT, DPO y RL para Cadenas de Pensamiento Largas desde Cero y Más Allá
Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
March 13, 2025
Autores: Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang
cs.AI
Resumen
Este artículo presenta nuestro trabajo sobre la serie Light-R1, con modelos, datos y código liberados públicamente.
Primero, nos enfocamos en entrenar modelos de razonamiento en cadena (COT) largos desde cero, específicamente partiendo de modelos que inicialmente carecían de capacidades de COT largas. Utilizando una receta de entrenamiento curricular que consiste en ajuste fino supervisado (SFT) en dos etapas y optimización de preferencias semi-on-policy (DPO), entrenamos nuestro modelo Light-R1-32B a partir de Qwen2.5-32B-Instruct, logrando un rendimiento matemático superior en comparación con DeepSeek-R1-Distill-Qwen-32B. A pesar de haber sido entrenado exclusivamente con datos matemáticos, Light-R1-32B muestra una fuerte generalización en otros dominios. En la fase posterior de este trabajo, destacamos el beneficio significativo del conjunto de datos de 3k construido para la segunda etapa de SFT en la mejora de otros modelos. Al ajustar los modelos DeepSeek-R1-Distilled utilizando este conjunto de datos, obtenemos nuevos modelos de última generación (SOTA) en 7B y 14B, mientras que el modelo de 32B, Light-R1-32B-DS, tuvo un rendimiento comparable a QwQ-32B y DeepSeek-R1.
Además, extendemos nuestro trabajo aplicando aprendizaje por refuerzo, específicamente GRPO, en modelos de COT largos para mejorar aún más el rendimiento en razonamiento. Entrenamos con éxito nuestro modelo final Light-R1-14B-DS con aprendizaje por refuerzo, logrando un rendimiento SOTA entre los modelos de 14B parámetros en matemáticas. Con puntajes AIME24 y AIME25 de 74.0 y 60.2 respectivamente, Light-R1-14B-DS supera incluso a muchos modelos de 32B y a DeepSeek-R1-Distill-Llama-70B. Su entrenamiento con aprendizaje por refuerzo también exhibe un comportamiento esperado, mostrando un aumento simultáneo en la longitud de las respuestas y la puntuación de recompensa.
La serie Light-R1 valida el entrenamiento de modelos de COT largos desde cero, muestra el arte en los datos de SFT y libera modelos SOTA obtenidos mediante aprendizaje por refuerzo.
English
This paper presents our work on the Light-R1 series, with models, data, and
code all released.
We first focus on training long COT models from scratch, specifically
starting from models initially lacking long COT capabilities. Using a
curriculum training recipe consisting of two-stage SFT and semi-on-policy DPO,
we train our model Light-R1-32B from Qwen2.5-32B-Instruct, resulting in
superior math performance compared to DeepSeek-R1-Distill-Qwen-32B. Despite
being trained exclusively on math data, Light-R1-32B shows strong
generalization across other domains. In the subsequent phase of this work, we
highlight the significant benefit of the 3k dataset constructed for the second
SFT stage on enhancing other models. By fine-tuning DeepSeek-R1-Distilled
models using this dataset, we obtain new SOTA models in 7B and 14B, while the
32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1.
Furthermore, we extend our work by applying reinforcement learning,
specifically GRPO, on long-COT models to further improve reasoning performance.
We successfully train our final Light-R1-14B-DS with RL, achieving SOTA
performance among 14B parameter models in math. With AIME24 & 25 scores of 74.0
and 60.2 respectively, Light-R1-14B-DS surpasses even many 32B models and
DeepSeek-R1-Distill-Llama-70B. Its RL training also exhibits well expected
behavior, showing simultaneous increase in response length and reward score.
The Light-R1 series of work validates training long-COT models from scratch,
showcases the art in SFT data and releases SOTA models from RL.Summary
AI-Generated Summary