VCRL: Aprendizado por Reforço Baseado em Currículo de Variância para Modelos de Linguagem de Grande Escala
VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models
September 24, 2025
Autores: Guochao Jiang, Wenfeng Feng, Guofeng Quan, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang
cs.AI
Resumo
O aprendizado por reforço baseado em políticas atualmente desempenha um papel importante na melhoria de LLMs (Large Language Models) em tarefas de raciocínio matemático. No entanto, os métodos existentes de aprendizado por reforço baseados em rollouts (GRPO, DAPO, GSPO, etc.) falham em considerar explicitamente a capacidade de aprendizado dos LLMs para amostras de diferentes níveis de dificuldade, o que contraria o processo cognitivo humano de tarefas de raciocínio matemático, que vai do fácil para o difícil. Intuitivamente, observamos que a variância da recompensa do grupo de rollouts no RLVR reflete parcialmente a dificuldade da amostra atual para os LLMs. Amostras que são muito fáceis ou muito difíceis têm uma variância menor, enquanto amostras com dificuldade moderada apresentam uma variância maior. Com base nisso, propomos o VCRL, um framework de aprendizado por reforço curricular que controla dinamicamente a dificuldade das amostras de treinamento com base na variância das recompensas do grupo. Experimentos em cinco benchmarks matemáticos e dois modelos revelam as vantagens do VCRL em relação às atuais abordagens de RL para LLMs.
English
Policy-based reinforcement learning currently plays an important role in
improving LLMs on mathematical reasoning tasks. However, existing rollout-based
reinforcement learning methods (GRPO, DAPO, GSPO, etc.) fail to explicitly
consider LLMs' learning ability for samples of different difficulty levels,
which is contrary to the human cognitive process of mathematical reasoning
tasks from easy to difficult. Intuitively, we find that the variance of the
rollout group's reward in RLVR partly reflects the difficulty of the current
sample for LLMs. Samples that are too easy or too difficult have a lower
variance, while samples with moderate difficulty have a higher variance. Based
on this, we propose VCRL, a curriculum reinforcement learning framework that
dynamically controls the difficulty of training samples based on the variance
of group rewards. Experiments on five mathematical benchmarks and two models
reveal the advantages of VCRL over the current LLM RL baselines.