長く訓練し、短く考える:効率的な推論のためのカリキュラム学習
Train Long, Think Short: Curriculum Learning for Efficient Reasoning
August 12, 2025
著者: Hasan Abed Al Kader Hammoud, Kumail Alhamoud, Abed Hammoud, Elie Bou-Zeid, Marzyeh Ghassemi, Bernard Ghanem
cs.AI
要旨
大規模言語モデル(LLM)の推論能力を向上させる最近の研究では、計算コストを制約しつつ精度を維持する手段として、明示的な長さ制御が導入されています。しかし、既存のアプローチは固定長のトレーニング予算に依存しており、学習中の探索から圧縮への自然な進行を活用していません。本研究では、Group Relative Policy Optimization(GRPO)を用いた長さ制御推論のためのカリキュラム学習戦略を提案します。この手法は、最初に十分なトークン予算を与え、トレーニング中に徐々にそれを厳しくすることで、モデルがまず効果的な解決策を見つけ、その後それをより簡潔な推論トレースに蒸留することを促します。GRPOを、タスクの正しさ(検証器フィードバックによる)、長さ効率、およびフォーマット遵守(構造タグによる)の3つの信号をバランスさせる報酬関数で拡張します。GSM8K、MATH500、SVAMP、College Math、およびGSM+での実験により、カリキュラムベースのトレーニングが、同じ最終予算で固定予算ベースラインを一貫して上回り、より高い精度と大幅に改善されたトークン効率を達成することが示されました。さらに、報酬の重み付けと減衰スケジュール設計の影響を分析し、漸進的な制約が効率的な推論モデルのトレーニングにおける強力な帰納的バイアスとして機能することを示します。コードとチェックポイントは以下で公開されています:https://github.com/hammoudhasan/curriculum_grpo。
English
Recent work on enhancing the reasoning abilities of large language models
(LLMs) has introduced explicit length control as a means of constraining
computational cost while preserving accuracy. However, existing approaches rely
on fixed-length training budgets, which do not take advantage of the natural
progression from exploration to compression during learning. In this work, we
propose a curriculum learning strategy for length-controlled reasoning using
Group Relative Policy Optimization (GRPO). Our method starts with generous
token budgets and gradually tightens them over training, encouraging models to
first discover effective solution strategies and then distill them into more
concise reasoning traces. We augment GRPO with a reward function that balances
three signals: task correctness (via verifier feedback), length efficiency, and
formatting adherence (via structural tags). Experiments on GSM8K, MATH500,
SVAMP, College Math, and GSM+ demonstrate that curriculum-based training
consistently outperforms fixed-budget baselines at the same final budget,
achieving higher accuracy and significantly improved token efficiency. We
further ablate the impact of reward weighting and decay schedule design,
showing that progressive constraint serves as a powerful inductive bias for
training efficient reasoning models. Our code and checkpoints are released at:
https://github.com/hammoudhasan/curriculum_grpo.