ChatPaper.aiChatPaper

Light-R1: 장문 사고 과정(Chain-of-Thought) 학습 및 그 이상을 위한 커리큘럼 기반 SFT, DPO 및 RL 접근법

Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond

March 13, 2025
저자: Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang
cs.AI

초록

본 논문은 Light-R1 시리즈에 대한 우리의 연구를 소개하며, 모델, 데이터 및 코드를 모두 공개한다. 우리는 먼저 장기 사고 사슬(COT) 능력이 없는 모델을 기반으로 장기 COT 모델을 처음부터 학습하는 데 초점을 맞췄다. 두 단계의 지도 미세 조정(SFT)과 준 온-정책 DPO로 구성된 커리큘럼 학습 레시피를 사용하여 Qwen2.5-32B-Instruct에서 Light-R1-32B 모델을 학습시켰으며, 이는 DeepSeek-R1-Distill-Qwen-32B보다 우수한 수학 성능을 보였다. 수학 데이터만으로 학습되었음에도 불구하고, Light-R1-32B는 다른 영역에서도 강력한 일반화 능력을 보였다. 이 작업의 후속 단계에서는 두 번째 SFT 단계를 위해 구축된 3k 데이터셋이 다른 모델의 성능 향상에 미치는 상당한 이점을 강조했다. 이 데이터셋을 사용하여 DeepSeek-R1-Distilled 모델을 미세 조정함으로써, 7B와 14B 크기에서 새로운 SOTA 모델을 얻었으며, 32B 모델인 Light-R1-32B-DS는 QwQ-32B 및 DeepSeek-R1과 비슷한 성능을 보였다. 또한, 우리는 장기 COT 모델에 강화 학습(GRPO)을 적용하여 추론 성능을 더욱 개선하는 작업을 확장했다. RL을 통해 최종 Light-R1-14B-DS 모델을 성공적으로 학습시켰으며, 14B 파라미터 모델 중에서 수학 분야에서 SOTA 성능을 달성했다. AIME24 및 AIME25 점수 각각 74.0과 60.2로, Light-R1-14B-DS는 많은 32B 모델과 DeepSeek-R1-Distill-Llama-70B를 능가했다. RL 학습은 또한 응답 길이와 보상 점수가 동시에 증가하는 예상된 동작을 잘 보여주었다. Light-R1 시리즈 작업은 장기 COT 모델을 처음부터 학습하는 방법을 검증하고, SFT 데이터의 기술을 보여주며, RL을 통해 SOTA 모델을 공개한다.
English
This paper presents our work on the Light-R1 series, with models, data, and code all released. We first focus on training long COT models from scratch, specifically starting from models initially lacking long COT capabilities. Using a curriculum training recipe consisting of two-stage SFT and semi-on-policy DPO, we train our model Light-R1-32B from Qwen2.5-32B-Instruct, resulting in superior math performance compared to DeepSeek-R1-Distill-Qwen-32B. Despite being trained exclusively on math data, Light-R1-32B shows strong generalization across other domains. In the subsequent phase of this work, we highlight the significant benefit of the 3k dataset constructed for the second SFT stage on enhancing other models. By fine-tuning DeepSeek-R1-Distilled models using this dataset, we obtain new SOTA models in 7B and 14B, while the 32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1. Furthermore, we extend our work by applying reinforcement learning, specifically GRPO, on long-COT models to further improve reasoning performance. We successfully train our final Light-R1-14B-DS with RL, achieving SOTA performance among 14B parameter models in math. With AIME24 & 25 scores of 74.0 and 60.2 respectively, Light-R1-14B-DS surpasses even many 32B models and DeepSeek-R1-Distill-Llama-70B. Its RL training also exhibits well expected behavior, showing simultaneous increase in response length and reward score. The Light-R1 series of work validates training long-COT models from scratch, showcases the art in SFT data and releases SOTA models from RL.

Summary

AI-Generated Summary

PDF284March 14, 2025