Entraîner Longuement, Penser Brièvement : Apprentissage Curriculaire pour un Raisonnement Efficace
Train Long, Think Short: Curriculum Learning for Efficient Reasoning
August 12, 2025
papers.authors: Hasan Abed Al Kader Hammoud, Kumail Alhamoud, Abed Hammoud, Elie Bou-Zeid, Marzyeh Ghassemi, Bernard Ghanem
cs.AI
papers.abstract
Les travaux récents visant à améliorer les capacités de raisonnement des grands modèles de langage (LLMs) ont introduit le contrôle explicite de la longueur comme moyen de limiter les coûts de calcul tout en préservant la précision. Cependant, les approches existantes reposent sur des budgets d'entraînement à longueur fixe, qui ne tirent pas parti de la progression naturelle de l'exploration vers la compression pendant l'apprentissage. Dans ce travail, nous proposons une stratégie d'apprentissage curriculaire pour le raisonnement contrôlé en longueur utilisant l'Optimisation de Politique Relative par Groupe (GRPO). Notre méthode commence avec des budgets de tokens généreux et les resserre progressivement au cours de l'entraînement, encourageant les modèles à découvrir d'abord des stratégies de solution efficaces, puis à les condenser en traces de raisonnement plus concises. Nous enrichissons GRPO avec une fonction de récompense qui équilibre trois signaux : la justesse de la tâche (via un retour de vérificateur), l'efficacité en termes de longueur, et le respect du format (via des balises structurelles). Les expériences sur GSM8K, MATH500, SVAMP, College Math et GSM+ montrent que l'entraînement basé sur un curriculum surpasse systématiquement les bases de référence à budget fixe pour le même budget final, atteignant une précision plus élevée et une efficacité en tokens significativement améliorée. Nous étudions également l'impact de la pondération des récompenses et de la conception du calendrier de décroissance, montrant que la contrainte progressive sert de biais inductif puissant pour entraîner des modèles de raisonnement efficaces. Notre code et nos points de contrôle sont disponibles à l'adresse : https://github.com/hammoudhasan/curriculum_grpo.
English
Recent work on enhancing the reasoning abilities of large language models
(LLMs) has introduced explicit length control as a means of constraining
computational cost while preserving accuracy. However, existing approaches rely
on fixed-length training budgets, which do not take advantage of the natural
progression from exploration to compression during learning. In this work, we
propose a curriculum learning strategy for length-controlled reasoning using
Group Relative Policy Optimization (GRPO). Our method starts with generous
token budgets and gradually tightens them over training, encouraging models to
first discover effective solution strategies and then distill them into more
concise reasoning traces. We augment GRPO with a reward function that balances
three signals: task correctness (via verifier feedback), length efficiency, and
formatting adherence (via structural tags). Experiments on GSM8K, MATH500,
SVAMP, College Math, and GSM+ demonstrate that curriculum-based training
consistently outperforms fixed-budget baselines at the same final budget,
achieving higher accuracy and significantly improved token efficiency. We
further ablate the impact of reward weighting and decay schedule design,
showing that progressive constraint serves as a powerful inductive bias for
training efficient reasoning models. Our code and checkpoints are released at:
https://github.com/hammoudhasan/curriculum_grpo.