길게 훈련하고 짧게 사고하라: 효율적 추론을 위한 커리큘럼 학습
Train Long, Think Short: Curriculum Learning for Efficient Reasoning
August 12, 2025
저자: Hasan Abed Al Kader Hammoud, Kumail Alhamoud, Abed Hammoud, Elie Bou-Zeid, Marzyeh Ghassemi, Bernard Ghanem
cs.AI
초록
대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 최근 연구에서는 정확도를 유지하면서 계산 비용을 제한하기 위한 명시적인 길이 제어를 도입했습니다. 그러나 기존 접근 방식은 학습 과정에서 탐색에서 압축으로의 자연스러운 진행을 활용하지 못하는 고정 길이 훈련 예산에 의존합니다. 본 연구에서는 Group Relative Policy Optimization(GRPO)을 사용한 길이 제어 추론을 위한 커리큘럼 학습 전략을 제안합니다. 우리의 방법은 충분한 토큰 예산으로 시작하여 훈련 과정에서 점차 이를 줄여나가며, 모델이 먼저 효과적인 해결 전략을 발견한 다음 이를 더 간결한 추론 흔적으로 정제하도록 유도합니다. 우리는 GRPO에 세 가지 신호를 균형 있게 고려하는 보상 함수를 추가합니다: 작업 정확도(검증자 피드백을 통해), 길이 효율성, 그리고 형식 준수(구조적 태그를 통해). GSM8K, MATH500, SVAMP, College Math, GSM+에 대한 실험 결과, 커리큘럼 기반 훈련은 동일한 최종 예산에서 고정 예산 기준선을 일관되게 능가하며, 더 높은 정확도와 상당히 개선된 토큰 효율성을 달성함을 보여줍니다. 또한, 보상 가중치와 감소 스케줄 설계의 영향을 추가로 분석하여, 점진적인 제약이 효율적인 추론 모델 훈련을 위한 강력한 귀납적 편향으로 작용함을 입증합니다. 우리의 코드와 체크포인트는 https://github.com/hammoudhasan/curriculum_grpo에서 공개되었습니다.
English
Recent work on enhancing the reasoning abilities of large language models
(LLMs) has introduced explicit length control as a means of constraining
computational cost while preserving accuracy. However, existing approaches rely
on fixed-length training budgets, which do not take advantage of the natural
progression from exploration to compression during learning. In this work, we
propose a curriculum learning strategy for length-controlled reasoning using
Group Relative Policy Optimization (GRPO). Our method starts with generous
token budgets and gradually tightens them over training, encouraging models to
first discover effective solution strategies and then distill them into more
concise reasoning traces. We augment GRPO with a reward function that balances
three signals: task correctness (via verifier feedback), length efficiency, and
formatting adherence (via structural tags). Experiments on GSM8K, MATH500,
SVAMP, College Math, and GSM+ demonstrate that curriculum-based training
consistently outperforms fixed-budget baselines at the same final budget,
achieving higher accuracy and significantly improved token efficiency. We
further ablate the impact of reward weighting and decay schedule design,
showing that progressive constraint serves as a powerful inductive bias for
training efficient reasoning models. Our code and checkpoints are released at:
https://github.com/hammoudhasan/curriculum_grpo.