ChatPaper.aiChatPaper

CurES: Da Análise de Gradientes ao Aprendizado de Currículo Eficiente para LLMs de Raciocínio

CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs

October 1, 2025
Autores: Yongcheng Zeng, Zexu Sun, Bokai Ji, Erxue Min, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Haifeng Zhang, Xu Chen, Jun Wang
cs.AI

Resumo

O aprendizado curricular desempenha um papel crucial na melhoria da eficiência do treinamento de modelos de linguagem de grande escala (LLMs) em tarefas de raciocínio. No entanto, os métodos existentes frequentemente falham em considerar adequadamente as variações na dificuldade dos prompts ou dependem de mecanismos de filtragem simplistas para selecionar conjuntos de dados de prompts dentro de uma faixa estreita de critérios, resultando em um desperdício computacional significativo. Neste trabalho, abordamos o problema a partir da perspectiva da otimização de gradiente em aprendizado por reforço, oferecendo uma investigação sistemática e teórica sobre como melhorar a eficiência do treinamento de LLMs. Identificamos dois fatores-chave que influenciam a eficiência do treinamento: a seleção de prompts de treinamento e a alocação de quantidades de rollouts entre diferentes prompts. Nossa análise teórica revela que a distribuição de amostragem dos prompts determina a taxa de convergência do gradiente descendente, enquanto a alocação da quantidade de rollouts influencia a consistência e a estabilidade das atualizações gerais do gradiente. Com base nessas percepções, propomos o CurES, um método de treinamento eficiente que acelera a convergência e emprega estimativa bayesiana posterior para minimizar o custo computacional. Experimentos demonstram que nosso CurES supera a Otimização de Política Relativa de Grupo (GRPO) em +3,30 pontos e +4,82 pontos com modelos de 1,5B e 7B, respectivamente. Além disso, o CurES exibe convergência mais rápida em comparação com as linhas de base, incluindo o GRPO.
English
Curriculum learning plays a crucial role in enhancing the training efficiency of large language models (LLMs) on reasoning tasks. However, existing methods often fail to adequately account for variations in prompt difficulty or rely on simplistic filtering mechanisms to select prompt datasets within a narrow criterion range, resulting in significant computational waste. In this work, we approach the problem from the perspective of reinforcement learning gradient optimization, offering a systematic and theoretical investigation into how to improve the training efficiency of LLMs. We identify two key factors influencing training efficiency: the selection of training prompts and the allocation of rollout quantities across different prompts. Our theoretical analysis reveals that the sampling distribution of prompts dictates the convergence rate of gradient descent, while the allocation of the rollout quantity influences the consistency and stability of overall gradient updates. Based on these insights, we propose CurES, an efficient training method that accelerates convergence and employs Bayesian posterior estimation to minimize computational overhead. Experiments demonstrate that our CurES outperforms Group Relative Policy Optimization (GRPO) by +3.30 points and +4.82 points with 1.5B and 7B models, respectively. Additionally, CurES exhibits faster convergence compared to baselines, including GRPO.
PDF22October 2, 2025