VCRL: Variantie-gebaseerd Curriculum Reinforcement Learning voor Grote Taalmodellen
VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models
September 24, 2025
Auteurs: Guochao Jiang, Wenfeng Feng, Guofeng Quan, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang
cs.AI
Samenvatting
Policy-based reinforcement learning speelt momenteel een belangrijke rol bij het verbeteren van LLM's voor wiskundige redeneertaken. Bestaande rollout-gebaseerde reinforcement learning-methoden (GRPO, DAPO, GSPO, etc.) slagen er echter niet in om expliciet rekening te houden met het leervermogen van LLM's voor samples van verschillende moeilijkheidsgraden, wat in tegenspraak is met het menselijke cognitieve proces van wiskundige redeneertaken van makkelijk naar moeilijk. Intuïtief constateren we dat de variantie van de beloning van de rollout-groep in RLVR deels de moeilijkheid van het huidige sample voor LLM's weerspiegelt. Samples die te makkelijk of te moeilijk zijn, hebben een lagere variantie, terwijl samples met een gemiddelde moeilijkheidsgraad een hogere variantie hebben. Op basis hiervan stellen we VCRL voor, een curriculum reinforcement learning-framework dat de moeilijkheid van trainingsamples dynamisch aanpast op basis van de variantie van groepsbeloningen. Experimenten op vijf wiskundige benchmarks en twee modellen tonen de voordelen van VCRL aan ten opzichte van de huidige LLM RL-baselines.
English
Policy-based reinforcement learning currently plays an important role in
improving LLMs on mathematical reasoning tasks. However, existing rollout-based
reinforcement learning methods (GRPO, DAPO, GSPO, etc.) fail to explicitly
consider LLMs' learning ability for samples of different difficulty levels,
which is contrary to the human cognitive process of mathematical reasoning
tasks from easy to difficult. Intuitively, we find that the variance of the
rollout group's reward in RLVR partly reflects the difficulty of the current
sample for LLMs. Samples that are too easy or too difficult have a lower
variance, while samples with moderate difficulty have a higher variance. Based
on this, we propose VCRL, a curriculum reinforcement learning framework that
dynamically controls the difficulty of training samples based on the variance
of group rewards. Experiments on five mathematical benchmarks and two models
reveal the advantages of VCRL over the current LLM RL baselines.