ChatPaper.aiChatPaper

Light-R1: Currículo de SFT, DPO e RL para Long COT do Zero e Além

Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond

March 13, 2025
Autores: Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang
cs.AI

Resumo

Este artigo apresenta nosso trabalho na série Light-R1, com modelos, dados e código todos liberados. Primeiro, focamos no treinamento de modelos long-COT do zero, especificamente começando com modelos que inicialmente não possuíam capacidades long-COT. Usando uma receita de treinamento curricular composta por SFT em dois estágios e DPO semi-on-policy, treinamos nosso modelo Light-R1-32B a partir do Qwen2.5-32B-Instruct, resultando em um desempenho matemático superior ao DeepSeek-R1-Distill-Qwen-32B. Apesar de ter sido treinado exclusivamente com dados matemáticos, o Light-R1-32B demonstra forte generalização em outros domínios. Na fase subsequente deste trabalho, destacamos o benefício significativo do conjunto de dados de 3k construído para o segundo estágio de SFT no aprimoramento de outros modelos. Ao ajustar os modelos DeepSeek-R1-Distilled usando esse conjunto de dados, obtemos novos modelos SOTA em 7B e 14B, enquanto o modelo de 32B, Light-R1-32B-DS, teve desempenho comparável ao QwQ-32B e ao DeepSeek-R1. Além disso, estendemos nosso trabalho aplicando aprendizado por reforço, especificamente GRPO, em modelos long-COT para melhorar ainda mais o desempenho de raciocínio. Treinamos com sucesso nosso modelo final Light-R1-14B-DS com RL, alcançando desempenho SOTA entre modelos de 14B parâmetros em matemática. Com pontuações AIME24 e 25 de 74,0 e 60,2, respectivamente, o Light-R1-14B-DS supera até mesmo muitos modelos de 32B e o DeepSeek-R1-Distill-Llama-70B. Seu treinamento com RL também exibe o comportamento esperado, mostrando aumento simultâneo no comprimento da resposta e na pontuação de recompensa. A série Light-R1 valida o treinamento de modelos long-COT do zero, demonstra a arte nos dados de SFT e libera modelos SOTA a partir de RL.
English
This paper presents our work on the Light-R1 series, with models, data, and code all released. We first focus on training long COT models from scratch, specifically starting from models initially lacking long COT capabilities. Using a curriculum training recipe consisting of two-stage SFT and semi-on-policy DPO, we train our model Light-R1-32B from Qwen2.5-32B-Instruct, resulting in superior math performance compared to DeepSeek-R1-Distill-Qwen-32B. Despite being trained exclusively on math data, Light-R1-32B shows strong generalization across other domains. In the subsequent phase of this work, we highlight the significant benefit of the 3k dataset constructed for the second SFT stage on enhancing other models. By fine-tuning DeepSeek-R1-Distilled models using this dataset, we obtain new SOTA models in 7B and 14B, while the 32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1. Furthermore, we extend our work by applying reinforcement learning, specifically GRPO, on long-COT models to further improve reasoning performance. We successfully train our final Light-R1-14B-DS with RL, achieving SOTA performance among 14B parameter models in math. With AIME24 & 25 scores of 74.0 and 60.2 respectively, Light-R1-14B-DS surpasses even many 32B models and DeepSeek-R1-Distill-Llama-70B. Its RL training also exhibits well expected behavior, showing simultaneous increase in response length and reward score. The Light-R1 series of work validates training long-COT models from scratch, showcases the art in SFT data and releases SOTA models from RL.

Summary

AI-Generated Summary

PDF284March 14, 2025