VCRL: Обучение с подкреплением на основе дисперсии с использованием учебного плана для крупных языковых моделей
VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models
September 24, 2025
Авторы: Guochao Jiang, Wenfeng Feng, Guofeng Quan, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang
cs.AI
Аннотация
Обучение с подкреплением на основе политик в настоящее время играет важную роль в улучшении больших языковых моделей (LLM) в задачах математического рассуждения. Однако существующие методы обучения с подкреплением, основанные на прогонах (GRPO, DAPO, GSPO и др.), не учитывают явно способность LLM к обучению на образцах разного уровня сложности, что противоречит когнитивному процессу человека, который осваивает математические задачи от простого к сложному. Интуитивно мы обнаруживаем, что дисперсия награды группы прогонов в RLVR частично отражает сложность текущего образца для LLM. Образцы, которые слишком просты или слишком сложны, имеют меньшую дисперсию, тогда как образцы средней сложности демонстрируют более высокую дисперсию. На основе этого мы предлагаем VCRL — фреймворк для обучения с подкреплением с динамическим управлением сложностью обучающих образцов на основе дисперсии групповых наград. Эксперименты на пяти математических бенчмарках и двух моделях показывают преимущества VCRL по сравнению с текущими базовыми методами обучения с подкреплением для LLM.
English
Policy-based reinforcement learning currently plays an important role in
improving LLMs on mathematical reasoning tasks. However, existing rollout-based
reinforcement learning methods (GRPO, DAPO, GSPO, etc.) fail to explicitly
consider LLMs' learning ability for samples of different difficulty levels,
which is contrary to the human cognitive process of mathematical reasoning
tasks from easy to difficult. Intuitively, we find that the variance of the
rollout group's reward in RLVR partly reflects the difficulty of the current
sample for LLMs. Samples that are too easy or too difficult have a lower
variance, while samples with moderate difficulty have a higher variance. Based
on this, we propose VCRL, a curriculum reinforcement learning framework that
dynamically controls the difficulty of training samples based on the variance
of group rewards. Experiments on five mathematical benchmarks and two models
reveal the advantages of VCRL over the current LLM RL baselines.