ChatPaper.aiChatPaper

VCRL: Apprendimento per Rinforzo con Curriculum Basato sulla Varianza per Modelli Linguistici di Grandi Dimensioni

VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models

September 24, 2025
Autori: Guochao Jiang, Wenfeng Feng, Guofeng Quan, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang
cs.AI

Abstract

L'apprendimento per rinforzo basato su politiche svolge attualmente un ruolo importante nel miglioramento dei modelli linguistici di grandi dimensioni (LLM) per i compiti di ragionamento matematico. Tuttavia, i metodi esistenti di apprendimento per rinforzo basati su rollout (GRPO, DAPO, GSPO, ecc.) non considerano esplicitamente la capacità di apprendimento degli LLM per campioni di diversi livelli di difficoltà, il che è in contrasto con il processo cognitivo umano dei compiti di ragionamento matematico che procede dal semplice al complesso. Intuitivamente, osserviamo che la varianza della ricompensa del gruppo di rollout in RLVR riflette in parte la difficoltà del campione corrente per gli LLM. I campioni troppo facili o troppo difficili hanno una varianza inferiore, mentre i campioni con difficoltà moderata presentano una varianza più elevata. Sulla base di ciò, proponiamo VCRL, un framework di apprendimento per rinforzo curriculare che controlla dinamicamente la difficoltà dei campioni di addestramento in base alla varianza delle ricompense di gruppo. Esperimenti condotti su cinque benchmark matematici e due modelli rivelano i vantaggi di VCRL rispetto alle attuali baseline di apprendimento per rinforzo per LLM.
English
Policy-based reinforcement learning currently plays an important role in improving LLMs on mathematical reasoning tasks. However, existing rollout-based reinforcement learning methods (GRPO, DAPO, GSPO, etc.) fail to explicitly consider LLMs' learning ability for samples of different difficulty levels, which is contrary to the human cognitive process of mathematical reasoning tasks from easy to difficult. Intuitively, we find that the variance of the rollout group's reward in RLVR partly reflects the difficulty of the current sample for LLMs. Samples that are too easy or too difficult have a lower variance, while samples with moderate difficulty have a higher variance. Based on this, we propose VCRL, a curriculum reinforcement learning framework that dynamically controls the difficulty of training samples based on the variance of group rewards. Experiments on five mathematical benchmarks and two models reveal the advantages of VCRL over the current LLM RL baselines.
PDF1172September 26, 2025