VCRL : Apprentissage par renforcement curriculaire basé sur la variance pour les grands modèles de langage
VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models
September 24, 2025
papers.authors: Guochao Jiang, Wenfeng Feng, Guofeng Quan, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang
cs.AI
papers.abstract
L'apprentissage par renforcement basé sur les politiques joue actuellement un rôle important dans l'amélioration des LLM pour les tâches de raisonnement mathématique. Cependant, les méthodes existantes d'apprentissage par renforcement basées sur les rollouts (GRPO, DAPO, GSPO, etc.) ne prennent pas explicitement en compte la capacité d'apprentissage des LLM pour des échantillons de différents niveaux de difficulté, ce qui va à l'encontre du processus cognitif humain pour les tâches de raisonnement mathématique, qui progresse du facile au difficile. Intuitivement, nous constatons que la variance de la récompense du groupe de rollouts dans RLVR reflète en partie la difficulté de l'échantillon actuel pour les LLM. Les échantillons trop faciles ou trop difficiles présentent une variance plus faible, tandis que les échantillons de difficulté modérée ont une variance plus élevée. Sur cette base, nous proposons VCRL, un cadre d'apprentissage par renforcement curriculaire qui contrôle dynamiquement la difficulté des échantillons d'entraînement en fonction de la variance des récompenses de groupe. Les expériences menées sur cinq benchmarks mathématiques et deux modèles révèlent les avantages de VCRL par rapport aux méthodes de référence actuelles en apprentissage par renforcement pour les LLM.
English
Policy-based reinforcement learning currently plays an important role in
improving LLMs on mathematical reasoning tasks. However, existing rollout-based
reinforcement learning methods (GRPO, DAPO, GSPO, etc.) fail to explicitly
consider LLMs' learning ability for samples of different difficulty levels,
which is contrary to the human cognitive process of mathematical reasoning
tasks from easy to difficult. Intuitively, we find that the variance of the
rollout group's reward in RLVR partly reflects the difficulty of the current
sample for LLMs. Samples that are too easy or too difficult have a lower
variance, while samples with moderate difficulty have a higher variance. Based
on this, we propose VCRL, a curriculum reinforcement learning framework that
dynamically controls the difficulty of training samples based on the variance
of group rewards. Experiments on five mathematical benchmarks and two models
reveal the advantages of VCRL over the current LLM RL baselines.