ChatPaper.aiChatPaper

CurES: 그래디언트 분석부터 추론 LLM을 위한 효율적 커리큘럼 학습까지

CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs

October 1, 2025
저자: Yongcheng Zeng, Zexu Sun, Bokai Ji, Erxue Min, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Haifeng Zhang, Xu Chen, Jun Wang
cs.AI

초록

커리큘럼 학습은 대규모 언어 모델(LLM)의 추론 과제 학습 효율성을 향상시키는 데 중요한 역할을 합니다. 그러나 기존 방법들은 프롬프트 난이도의 변동을 충분히 고려하지 못하거나, 좁은 기준 범위 내에서 프롬프트 데이터셋을 선택하기 위해 단순한 필터링 메커니즘에 의존함으로써 상당한 계산 자원 낭비를 초래합니다. 본 연구에서는 강화 학습의 경사 최적화 관점에서 이 문제를 접근하여, LLM의 학습 효율성을 개선하는 방법에 대한 체계적이고 이론적인 탐구를 제공합니다. 우리는 학습 효율성에 영향을 미치는 두 가지 핵심 요소를 확인했습니다: 학습 프롬프트의 선택과 다양한 프롬프트 간 롤아웃 수량의 할당입니다. 이론적 분석에 따르면, 프롬프트의 샘플링 분포는 경사 하강법의 수렴 속도를 결정하며, 롤아웃 수량의 할당은 전체 경사 업데이트의 일관성과 안정성에 영향을 미칩니다. 이러한 통찰을 바탕으로, 우리는 수렴을 가속화하고 베이지안 사후 추정을 통해 계산 오버헤드를 최소화하는 효율적인 학습 방법인 CurES를 제안합니다. 실험 결과, CurES는 1.5B 및 7B 모델에서 각각 +3.30점과 +4.82점으로 그룹 상대 정책 최적화(GRPO)를 능가하는 성능을 보였습니다. 또한, CurES는 GRPO를 포함한 기준선보다 더 빠른 수렴 속도를 나타냈습니다.
English
Curriculum learning plays a crucial role in enhancing the training efficiency of large language models (LLMs) on reasoning tasks. However, existing methods often fail to adequately account for variations in prompt difficulty or rely on simplistic filtering mechanisms to select prompt datasets within a narrow criterion range, resulting in significant computational waste. In this work, we approach the problem from the perspective of reinforcement learning gradient optimization, offering a systematic and theoretical investigation into how to improve the training efficiency of LLMs. We identify two key factors influencing training efficiency: the selection of training prompts and the allocation of rollout quantities across different prompts. Our theoretical analysis reveals that the sampling distribution of prompts dictates the convergence rate of gradient descent, while the allocation of the rollout quantity influences the consistency and stability of overall gradient updates. Based on these insights, we propose CurES, an efficient training method that accelerates convergence and employs Bayesian posterior estimation to minimize computational overhead. Experiments demonstrate that our CurES outperforms Group Relative Policy Optimization (GRPO) by +3.30 points and +4.82 points with 1.5B and 7B models, respectively. Additionally, CurES exhibits faster convergence compared to baselines, including GRPO.
PDF22October 2, 2025