ChatPaper.aiChatPaper

CurES: Dall'analisi del gradiente a un apprendimento curriculare efficiente per modelli linguistici di ragionamento

CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs

October 1, 2025
Autori: Yongcheng Zeng, Zexu Sun, Bokai Ji, Erxue Min, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Haifeng Zhang, Xu Chen, Jun Wang
cs.AI

Abstract

Il curriculum learning svolge un ruolo cruciale nel migliorare l'efficienza dell'addestramento dei grandi modelli linguistici (LLM) nei compiti di ragionamento. Tuttavia, i metodi esistenti spesso non tengono adeguatamente conto delle variazioni nella difficoltà dei prompt o si affidano a meccanismi di filtraggio semplicistici per selezionare i dataset di prompt all'interno di un intervallo di criteri ristretto, causando uno spreco computazionale significativo. In questo lavoro, affrontiamo il problema dalla prospettiva dell'ottimizzazione del gradiente nell'apprendimento per rinforzo, offrendo un'indagine sistematica e teorica su come migliorare l'efficienza dell'addestramento degli LLM. Identifichiamo due fattori chiave che influenzano l'efficienza dell'addestramento: la selezione dei prompt di addestramento e l'allocazione delle quantità di rollout tra i diversi prompt. La nostra analisi teorica rivela che la distribuzione di campionamento dei prompt determina la velocità di convergenza della discesa del gradiente, mentre l'allocazione della quantità di rollout influenza la coerenza e la stabilità degli aggiornamenti complessivi del gradiente. Sulla base di queste intuizioni, proponiamo CurES, un metodo di addestramento efficiente che accelera la convergenza e utilizza la stima bayesiana a posteriori per minimizzare il sovraccarico computazionale. Gli esperimenti dimostrano che il nostro CurES supera l'ottimizzazione delle politiche relative di gruppo (GRPO) di +3,30 punti e +4,82 punti rispettivamente con modelli da 1,5B e 7B. Inoltre, CurES mostra una convergenza più rapida rispetto ai metodi di riferimento, incluso GRPO.
English
Curriculum learning plays a crucial role in enhancing the training efficiency of large language models (LLMs) on reasoning tasks. However, existing methods often fail to adequately account for variations in prompt difficulty or rely on simplistic filtering mechanisms to select prompt datasets within a narrow criterion range, resulting in significant computational waste. In this work, we approach the problem from the perspective of reinforcement learning gradient optimization, offering a systematic and theoretical investigation into how to improve the training efficiency of LLMs. We identify two key factors influencing training efficiency: the selection of training prompts and the allocation of rollout quantities across different prompts. Our theoretical analysis reveals that the sampling distribution of prompts dictates the convergence rate of gradient descent, while the allocation of the rollout quantity influences the consistency and stability of overall gradient updates. Based on these insights, we propose CurES, an efficient training method that accelerates convergence and employs Bayesian posterior estimation to minimize computational overhead. Experiments demonstrate that our CurES outperforms Group Relative Policy Optimization (GRPO) by +3.30 points and +4.82 points with 1.5B and 7B models, respectively. Additionally, CurES exhibits faster convergence compared to baselines, including GRPO.
PDF22October 2, 2025