ChatPaper.aiChatPaper

FastCuRL: 효율적인 R1 유사 추론 모델 학습을 위한 점진적 컨텍스트 확장 기반 커리큘럼 강화 학습

FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models

March 21, 2025
저자: Mingyang Song, Mao Zheng, Zheng Li, Wenjie Yang, Xuan Luo, Yue Pan, Feng Zhang
cs.AI

초록

본 논문에서는 R1 유사 추론 모델의 강화 학습 훈련 효율을 가속화하고, 특히 긴 사고 사슬을 가진 복잡한 추론 과제에서의 성능을 향상시키기 위해 컨텍스트 윈도우 확장 전략을 적용한 간단하면서도 효율적인 커리큘럼 강화 학습 접근법인 \textsc{FastCuRL}을 제안한다. \textsc{FastCuRL}은 주로 두 가지 주요 절차로 구성된다: 길이 인지 훈련 데이터 분할과 컨텍스트 윈도우 확장 훈련. 구체적으로, 전자는 원본 훈련 데이터를 입력 프롬프트 길이에 따라 세 가지 수준으로 분할하고, 후자는 점진적으로 증가하는 컨텍스트 윈도우 길이를 가진 분할된 훈련 데이터셋을 활용하여 추론 모델을 훈련시킨다. 실험 결과, \textsc{FastCuRL}-1.5B-Preview는 DeepScaleR-1.5B-Preview를 MATH 500, AIME 2024, AMC 2023, Minerva Math, OlympiadBench 등 모든 다섯 데이터셋에서 능가하면서도 훈련 단계의 50\%만 사용했다. 또한, FastCuRL-1.5B-Preview의 모든 훈련 단계는 단일 노드와 8개의 GPU만으로 완료되었다.
English
In this paper, we propose \textsc{FastCuRL}, a simple yet efficient Curriculum Reinforcement Learning approach with context window extending strategy to accelerate the reinforcement learning training efficiency for R1-like reasoning models while enhancing their performance in tackling complex reasoning tasks with long chain-of-thought rationales, particularly with a 1.5B parameter language model. \textsc{FastCuRL} consists of two main procedures: length-aware training data segmentation and context window extension training. Specifically, the former first splits the original training data into three different levels by the input prompt length, and then the latter leverages segmented training datasets with a progressively increasing context window length to train the reasoning model. Experimental results demonstrate that \textsc{FastCuRL}-1.5B-Preview surpasses DeepScaleR-1.5B-Preview across all five datasets (including MATH 500, AIME 2024, AMC 2023, Minerva Math, and OlympiadBench) while only utilizing 50\% of training steps. Furthermore, all training stages for FastCuRL-1.5B-Preview are completed using just a single node with 8 GPUs.

Summary

AI-Generated Summary

PDF103March 24, 2025