CurES: Von der Gradientenanalyse zum effizienten Curriculum-Lernen für schlussfolgernde LLMs
CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs
October 1, 2025
papers.authors: Yongcheng Zeng, Zexu Sun, Bokai Ji, Erxue Min, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Haifeng Zhang, Xu Chen, Jun Wang
cs.AI
papers.abstract
Curriculum Learning spielt eine entscheidende Rolle bei der Steigerung der Trainings effizienz großer Sprachmodelle (LLMs) für Aufgaben, die logisches Denken erfordern. Bisherige Methoden berücksichtigen jedoch oft nicht ausreichend die Schwankungen in der Schwierigkeit von Prompts oder verlassen sich auf vereinfachte Filtermechanismen, um Prompt-Datensätze innerhalb eines engen Kriterienbereichs auszuwählen, was zu erheblichem Rechenaufwand führt. In dieser Arbeit nähern wir uns dem Problem aus der Perspektive der Gradientenoptimierung im Reinforcement Learning und bieten eine systematische und theoretische Untersuchung, wie die Trainings effizienz von LLMs verbessert werden kann. Wir identifizieren zwei Schlüsselfaktoren, die die Trainings effizienz beeinflussen: die Auswahl der Trainings-Prompts und die Verteilung der Rollout-Mengen über verschiedene Prompts hinweg. Unsere theoretische Analyse zeigt, dass die Stichprobenverteilung der Prompts die Konvergenzrate des Gradientenabstiegs bestimmt, während die Verteilung der Rollout-Menge die Konsistenz und Stabilität der gesamten Gradientenaktualisierungen beeinflusst. Basierend auf diesen Erkenntnissen schlagen wir CurES vor, eine effiziente Trainingsmethode, die die Konvergenz beschleunigt und die Bayes’sche Posterior-Schätzung nutzt, um den Rechenaufwand zu minimieren. Experimente zeigen, dass unser CurES die Group Relative Policy Optimization (GRPO) um +3,30 Punkte und +4,82 Punkte bei 1,5B- und 7B-Modellen übertrifft. Dar hinaus weist CurES im Vergleich zu den Baselines, einschließlich GRPO, eine schnellere Konvergenz auf.
English
Curriculum learning plays a crucial role in enhancing the training efficiency
of large language models (LLMs) on reasoning tasks. However, existing methods
often fail to adequately account for variations in prompt difficulty or rely on
simplistic filtering mechanisms to select prompt datasets within a narrow
criterion range, resulting in significant computational waste. In this work, we
approach the problem from the perspective of reinforcement learning gradient
optimization, offering a systematic and theoretical investigation into how to
improve the training efficiency of LLMs. We identify two key factors
influencing training efficiency: the selection of training prompts and the
allocation of rollout quantities across different prompts. Our theoretical
analysis reveals that the sampling distribution of prompts dictates the
convergence rate of gradient descent, while the allocation of the rollout
quantity influences the consistency and stability of overall gradient updates.
Based on these insights, we propose CurES, an efficient training method that
accelerates convergence and employs Bayesian posterior estimation to minimize
computational overhead. Experiments demonstrate that our CurES outperforms
Group Relative Policy Optimization (GRPO) by +3.30 points and
+4.82 points with 1.5B and 7B models, respectively. Additionally,
CurES exhibits faster convergence compared to baselines, including GRPO.