Light-R1 : Curriculum SFT, DPO et RL pour un raisonnement en chaîne long (COT) à partir de zéro et au-delà
Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
March 13, 2025
Auteurs: Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang
cs.AI
Résumé
Cet article présente notre travail sur la série Light-R1, avec les modèles, les données et le code tous rendus publics.
Nous nous concentrons d'abord sur l'entraînement de modèles à long raisonnement en chaîne (long COT) à partir de zéro, en partant spécifiquement de modèles initialement dépourvus de capacités de long COT. En utilisant une recette d'entraînement par curriculum composée de deux étapes de fine-tuning supervisé (SFT) et d'optimisation des préférences déterministes semi-on-policy (DPO), nous entraînons notre modèle Light-R1-32B à partir de Qwen2.5-32B-Instruct, obtenant ainsi des performances mathématiques supérieures à celles de DeepSeek-R1-Distill-Qwen-32B. Bien qu'entraîné exclusivement sur des données mathématiques, Light-R1-32B montre une forte généralisation dans d'autres domaines. Dans la phase suivante de ce travail, nous mettons en avant le bénéfice significatif du jeu de données de 3k construit pour la deuxième étape de SFT, qui améliore d'autres modèles. En fine-tunant les modèles DeepSeek-R1-Distilled avec ce jeu de données, nous obtenons de nouveaux modèles SOTA en 7B et 14B, tandis que le modèle 32B, Light-R1-32B-DS, performe de manière comparable à QwQ-32B et DeepSeek-R1.
Par ailleurs, nous étendons notre travail en appliquant l'apprentissage par renforcement, spécifiquement GRPO, sur des modèles à long COT pour améliorer davantage les performances de raisonnement. Nous entraînons avec succès notre modèle final Light-R1-14B-DS avec RL, atteignant des performances SOTA parmi les modèles de 14B paramètres en mathématiques. Avec des scores AIME24 & 25 de 74,0 et 60,2 respectivement, Light-R1-14B-DS surpasse même de nombreux modèles 32B et DeepSeek-R1-Distill-Llama-70B. Son entraînement par RL montre également un comportement attendu, avec une augmentation simultanée de la longueur des réponses et du score de récompense.
La série Light-R1 valide l'entraînement de modèles à long COT à partir de zéro, met en lumière l'art dans les données de SFT et publie des modèles SOTA issus du RL.
English
This paper presents our work on the Light-R1 series, with models, data, and
code all released.
We first focus on training long COT models from scratch, specifically
starting from models initially lacking long COT capabilities. Using a
curriculum training recipe consisting of two-stage SFT and semi-on-policy DPO,
we train our model Light-R1-32B from Qwen2.5-32B-Instruct, resulting in
superior math performance compared to DeepSeek-R1-Distill-Qwen-32B. Despite
being trained exclusively on math data, Light-R1-32B shows strong
generalization across other domains. In the subsequent phase of this work, we
highlight the significant benefit of the 3k dataset constructed for the second
SFT stage on enhancing other models. By fine-tuning DeepSeek-R1-Distilled
models using this dataset, we obtain new SOTA models in 7B and 14B, while the
32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1.
Furthermore, we extend our work by applying reinforcement learning,
specifically GRPO, on long-COT models to further improve reasoning performance.
We successfully train our final Light-R1-14B-DS with RL, achieving SOTA
performance among 14B parameter models in math. With AIME24 & 25 scores of 74.0
and 60.2 respectively, Light-R1-14B-DS surpasses even many 32B models and
DeepSeek-R1-Distill-Llama-70B. Its RL training also exhibits well expected
behavior, showing simultaneous increase in response length and reward score.
The Light-R1 series of work validates training long-COT models from scratch,
showcases the art in SFT data and releases SOTA models from RL.Summary
AI-Generated Summary