VCRL: Aprendizaje por Refuerzo Basado en Varianza con Plan de Estudios para Modelos de Lenguaje a Gran Escala
VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models
September 24, 2025
Autores: Guochao Jiang, Wenfeng Feng, Guofeng Quan, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang
cs.AI
Resumen
El aprendizaje por refuerzo basado en políticas actualmente desempeña un papel importante en la mejora de los LLMs (modelos de lenguaje grandes) en tareas de razonamiento matemático. Sin embargo, los métodos existentes de aprendizaje por refuerzo basados en rollouts (GRPO, DAPO, GSPO, etc.) no consideran explícitamente la capacidad de aprendizaje de los LLMs para muestras de diferentes niveles de dificultad, lo cual va en contra del proceso cognitivo humano en tareas de razonamiento matemático, que avanza de lo fácil a lo difícil. Intuitivamente, observamos que la varianza de la recompensa del grupo de rollouts en RLVR refleja parcialmente la dificultad de la muestra actual para los LLMs. Las muestras demasiado fáciles o demasiado difíciles tienen una varianza más baja, mientras que las muestras con dificultad moderada presentan una varianza más alta. Basándonos en esto, proponemos VCRL, un marco de aprendizaje por refuerzo curricular que controla dinámicamente la dificultad de las muestras de entrenamiento según la varianza de las recompensas grupales. Los experimentos en cinco benchmarks matemáticos y dos modelos demuestran las ventajas de VCRL sobre las líneas base actuales de aprendizaje por refuerzo para LLMs.
English
Policy-based reinforcement learning currently plays an important role in
improving LLMs on mathematical reasoning tasks. However, existing rollout-based
reinforcement learning methods (GRPO, DAPO, GSPO, etc.) fail to explicitly
consider LLMs' learning ability for samples of different difficulty levels,
which is contrary to the human cognitive process of mathematical reasoning
tasks from easy to difficult. Intuitively, we find that the variance of the
rollout group's reward in RLVR partly reflects the difficulty of the current
sample for LLMs. Samples that are too easy or too difficult have a lower
variance, while samples with moderate difficulty have a higher variance. Based
on this, we propose VCRL, a curriculum reinforcement learning framework that
dynamically controls the difficulty of training samples based on the variance
of group rewards. Experiments on five mathematical benchmarks and two models
reveal the advantages of VCRL over the current LLM RL baselines.