CurES: Von der Gradientenanalyse zum effizienten Curriculum-Lernen für schlussfolgernde LLMs

papers.abstract

Curriculum Learning spielt eine entscheidende Rolle bei der Steigerung der Trainings effizienz großer Sprachmodelle (LLMs) für Aufgaben, die logisches Denken erfordern. Bisherige Methoden berücksichtigen jedoch oft nicht ausreichend die Schwankungen in der Schwierigkeit von Prompts oder verlassen sich auf vereinfachte Filtermechanismen, um Prompt-Datensätze innerhalb eines engen Kriterienbereichs auszuwählen, was zu erheblichem Rechenaufwand führt. In dieser Arbeit nähern wir uns dem Problem aus der Perspektive der Gradientenoptimierung im Reinforcement Learning und bieten eine systematische und theoretische Untersuchung, wie die Trainings effizienz von LLMs verbessert werden kann. Wir identifizieren zwei Schlüsselfaktoren, die die Trainings effizienz beeinflussen: die Auswahl der Trainings-Prompts und die Verteilung der Rollout-Mengen über verschiedene Prompts hinweg. Unsere theoretische Analyse zeigt, dass die Stichprobenverteilung der Prompts die Konvergenzrate des Gradientenabstiegs bestimmt, während die Verteilung der Rollout-Menge die Konsistenz und Stabilität der gesamten Gradientenaktualisierungen beeinflusst. Basierend auf diesen Erkenntnissen schlagen wir CurES vor, eine effiziente Trainingsmethode, die die Konvergenz beschleunigt und die Bayes’sche Posterior-Schätzung nutzt, um den Rechenaufwand zu minimieren. Experimente zeigen, dass unser CurES die Group Relative Policy Optimization (GRPO) um +3,30 Punkte und +4,82 Punkte bei 1,5B- und 7B-Modellen übertrifft. Dar hinaus weist CurES im Vergleich zu den Baselines, einschließlich GRPO, eine schnellere Konvergenz auf.

English

Curriculum learning plays a crucial role in enhancing the training efficiency of large language models (LLMs) on reasoning tasks. However, existing methods often fail to adequately account for variations in prompt difficulty or rely on simplistic filtering mechanisms to select prompt datasets within a narrow criterion range, resulting in significant computational waste. In this work, we approach the problem from the perspective of reinforcement learning gradient optimization, offering a systematic and theoretical investigation into how to improve the training efficiency of LLMs. We identify two key factors influencing training efficiency: the selection of training prompts and the allocation of rollout quantities across different prompts. Our theoretical analysis reveals that the sampling distribution of prompts dictates the convergence rate of gradient descent, while the allocation of the rollout quantity influences the consistency and stability of overall gradient updates. Based on these insights, we propose CurES, an efficient training method that accelerates convergence and employs Bayesian posterior estimation to minimize computational overhead. Experiments demonstrate that our CurES outperforms Group Relative Policy Optimization (GRPO) by +3.30 points and +4.82 points with 1.5B and 7B models, respectively. Additionally, CurES exhibits faster convergence compared to baselines, including GRPO.

CurES: Von der Gradientenanalyse zum effizienten Curriculum-Lernen für schlussfolgernde LLMs

CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs

papers.abstract

Support