CurES: Del análisis de gradientes al aprendizaje curricular eficiente para modelos de lenguaje de razonamiento
CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs
October 1, 2025
Autores: Yongcheng Zeng, Zexu Sun, Bokai Ji, Erxue Min, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Haifeng Zhang, Xu Chen, Jun Wang
cs.AI
Resumen
El aprendizaje curricular desempeña un papel crucial en la mejora de la eficiencia del entrenamiento de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en tareas de razonamiento. Sin embargo, los métodos existentes a menudo no tienen en cuenta adecuadamente las variaciones en la dificultad de los estímulos o dependen de mecanismos de filtrado simplistas para seleccionar conjuntos de datos de estímulos dentro de un rango de criterios limitado, lo que resulta en un desperdicio computacional significativo. En este trabajo, abordamos el problema desde la perspectiva de la optimización de gradientes en el aprendizaje por refuerzo, ofreciendo una investigación sistemática y teórica sobre cómo mejorar la eficiencia del entrenamiento de los LLMs. Identificamos dos factores clave que influyen en la eficiencia del entrenamiento: la selección de estímulos de entrenamiento y la asignación de cantidades de despliegue entre diferentes estímulos. Nuestro análisis teórico revela que la distribución de muestreo de los estímulos determina la tasa de convergencia del descenso de gradiente, mientras que la asignación de la cantidad de despliegue influye en la consistencia y estabilidad de las actualizaciones generales del gradiente. Basándonos en estas ideas, proponemos CurES, un método de entrenamiento eficiente que acelera la convergencia y emplea estimación bayesiana posterior para minimizar la sobrecarga computacional. Los experimentos demuestran que nuestro CurES supera a la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés) en +3.30 puntos y +4.82 puntos con modelos de 1.5B y 7B, respectivamente. Además, CurES exhibe una convergencia más rápida en comparación con los métodos de referencia, incluido GRPO.
English
Curriculum learning plays a crucial role in enhancing the training efficiency
of large language models (LLMs) on reasoning tasks. However, existing methods
often fail to adequately account for variations in prompt difficulty or rely on
simplistic filtering mechanisms to select prompt datasets within a narrow
criterion range, resulting in significant computational waste. In this work, we
approach the problem from the perspective of reinforcement learning gradient
optimization, offering a systematic and theoretical investigation into how to
improve the training efficiency of LLMs. We identify two key factors
influencing training efficiency: the selection of training prompts and the
allocation of rollout quantities across different prompts. Our theoretical
analysis reveals that the sampling distribution of prompts dictates the
convergence rate of gradient descent, while the allocation of the rollout
quantity influences the consistency and stability of overall gradient updates.
Based on these insights, we propose CurES, an efficient training method that
accelerates convergence and employs Bayesian posterior estimation to minimize
computational overhead. Experiments demonstrate that our CurES outperforms
Group Relative Policy Optimization (GRPO) by +3.30 points and
+4.82 points with 1.5B and 7B models, respectively. Additionally,
CurES exhibits faster convergence compared to baselines, including GRPO.