ChatPaper.aiChatPaper

CurES: От анализа градиентов к эффективному обучению с учебным планом для рассуждающих языковых моделей

CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs

October 1, 2025
Авторы: Yongcheng Zeng, Zexu Sun, Bokai Ji, Erxue Min, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Haifeng Zhang, Xu Chen, Jun Wang
cs.AI

Аннотация

Обучение по учебному плану играет ключевую роль в повышении эффективности обучения крупных языковых моделей (LLM) на задачах, требующих рассуждений. Однако существующие методы часто не учитывают должным образом вариации сложности промптов или полагаются на упрощенные механизмы фильтрации для выбора наборов данных промптов в узком диапазоне критериев, что приводит к значительным вычислительным потерям. В данной работе мы подходим к проблеме с точки зрения оптимизации градиентов в обучении с подкреплением, предлагая систематическое и теоретическое исследование того, как повысить эффективность обучения LLM. Мы выделяем два ключевых фактора, влияющих на эффективность обучения: выбор обучающих промптов и распределение количества прогонов между различными промптами. Наш теоретический анализ показывает, что распределение выборки промптов определяет скорость сходимости градиентного спуска, а распределение количества прогонов влияет на согласованность и стабильность общих обновлений градиента. На основе этих инсайтов мы предлагаем CurES, эффективный метод обучения, который ускоряет сходимость и использует байесовскую апостериорную оценку для минимизации вычислительных затрат. Эксперименты демонстрируют, что наш CurES превосходит метод Group Relative Policy Optimization (GRPO) на +3,30 и +4,82 балла для моделей с 1,5 млрд и 7 млрд параметров соответственно. Кроме того, CurES демонстрирует более быструю сходимость по сравнению с базовыми методами, включая GRPO.
English
Curriculum learning plays a crucial role in enhancing the training efficiency of large language models (LLMs) on reasoning tasks. However, existing methods often fail to adequately account for variations in prompt difficulty or rely on simplistic filtering mechanisms to select prompt datasets within a narrow criterion range, resulting in significant computational waste. In this work, we approach the problem from the perspective of reinforcement learning gradient optimization, offering a systematic and theoretical investigation into how to improve the training efficiency of LLMs. We identify two key factors influencing training efficiency: the selection of training prompts and the allocation of rollout quantities across different prompts. Our theoretical analysis reveals that the sampling distribution of prompts dictates the convergence rate of gradient descent, while the allocation of the rollout quantity influences the consistency and stability of overall gradient updates. Based on these insights, we propose CurES, an efficient training method that accelerates convergence and employs Bayesian posterior estimation to minimize computational overhead. Experiments demonstrate that our CurES outperforms Group Relative Policy Optimization (GRPO) by +3.30 points and +4.82 points with 1.5B and 7B models, respectively. Additionally, CurES exhibits faster convergence compared to baselines, including GRPO.
PDF22October 2, 2025