CurES : De l'analyse des gradients à un apprentissage curriculaire efficace pour les LLMs de raisonnement
CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs
October 1, 2025
papers.authors: Yongcheng Zeng, Zexu Sun, Bokai Ji, Erxue Min, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Haifeng Zhang, Xu Chen, Jun Wang
cs.AI
papers.abstract
L'apprentissage curriculaire joue un rôle crucial dans l'amélioration de l'efficacité de l'entraînement des grands modèles de langage (LLMs) pour les tâches de raisonnement. Cependant, les méthodes existantes échouent souvent à prendre en compte de manière adéquate les variations de difficulté des prompts ou s'appuient sur des mécanismes de filtrage simplistes pour sélectionner des ensembles de données de prompts dans une plage de critères étroite, entraînant un gaspillage computationnel significatif. Dans ce travail, nous abordons le problème sous l'angle de l'optimisation des gradients en apprentissage par renforcement, offrant une investigation systématique et théorique sur la manière d'améliorer l'efficacité de l'entraînement des LLMs. Nous identifions deux facteurs clés influençant l'efficacité de l'entraînement : la sélection des prompts d'entraînement et l'allocation des quantités de déploiement entre différents prompts. Notre analyse théorique révèle que la distribution d'échantillonnage des prompts dicte le taux de convergence de la descente de gradient, tandis que l'allocation de la quantité de déploiement influence la cohérence et la stabilité des mises à jour globales du gradient. Sur la base de ces insights, nous proposons CurES, une méthode d'entraînement efficace qui accélère la convergence et utilise l'estimation bayésienne a posteriori pour minimiser la surcharge computationnelle. Les expériences démontrent que notre CurES surpasse l'Optimisation Relative de Politique de Groupe (GRPO) de +3,30 points et +4,82 points avec des modèles de 1,5B et 7B, respectivement. De plus, CurES présente une convergence plus rapide par rapport aux méthodes de référence, y compris GRPO.
English
Curriculum learning plays a crucial role in enhancing the training efficiency
of large language models (LLMs) on reasoning tasks. However, existing methods
often fail to adequately account for variations in prompt difficulty or rely on
simplistic filtering mechanisms to select prompt datasets within a narrow
criterion range, resulting in significant computational waste. In this work, we
approach the problem from the perspective of reinforcement learning gradient
optimization, offering a systematic and theoretical investigation into how to
improve the training efficiency of LLMs. We identify two key factors
influencing training efficiency: the selection of training prompts and the
allocation of rollout quantities across different prompts. Our theoretical
analysis reveals that the sampling distribution of prompts dictates the
convergence rate of gradient descent, while the allocation of the rollout
quantity influences the consistency and stability of overall gradient updates.
Based on these insights, we propose CurES, an efficient training method that
accelerates convergence and employs Bayesian posterior estimation to minimize
computational overhead. Experiments demonstrate that our CurES outperforms
Group Relative Policy Optimization (GRPO) by +3.30 points and
+4.82 points with 1.5B and 7B models, respectively. Additionally,
CurES exhibits faster convergence compared to baselines, including GRPO.