ChatPaper.aiChatPaper

RLVE: Масштабирование обучения с подкреплением для языковых моделей с помощью адаптивных верифицируемых сред

RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments

November 10, 2025
Авторы: Zhiyuan Zeng, Hamish Ivison, Yiping Wang, Lifan Yuan, Shuyue Stella Li, Zhuorui Ye, Siting Li, Jacqueline He, Runlong Zhou, Tong Chen, Chenyang Zhao, Yulia Tsvetkov, Simon Shaolei Du, Natasha Jaques, Hao Peng, Pang Wei Koh, Hannaneh Hajishirzi
cs.AI

Аннотация

Мы представляем обучение с подкреплением (RL) с адаптивными верифицируемыми средами (RLVE) — подход, использующий верифицируемые среды, которые процедурно генерируют задачи и предоставляют алгоритмически проверяемые вознаграждения, для масштабирования RL для языковых моделей (LM). RLVE позволяет каждой верифицируемой среде динамически адаптировать распределение сложности задач к возможностям политики модели по мере прогресса обучения. В отличие от этого, статические распределения данных часто приводят к затуханию обучающих сигналов, когда задачи оказываются либо слишком легкими, либо слишком сложными для политики. Для реализации RLVE мы создали RLVE-Gym, крупномасштабный набор из 400 тщательно разработанных вручную верифицируемых сред. Используя RLVE-Gym, мы показываем, что масштабирование сред, то есть расширение набора обучающих сред, последовательно улучшает обобщающие способности к рассуждениям. RLVE с совместным обучением на всех 400 средах в RLVE-Gym дает абсолютное среднее улучшение на 3,37% по шести тестам на рассуждения, начиная с одной из самых мощных языковых моделей для рассуждений объемом 1,5 млрд параметров. Для сравнения, продолжение исходного RL-обучения этой LM дает лишь средний абсолютный прирост в 0,49%, несмотря на использование более чем в 3 раза больших вычислительных ресурсов. Мы публикуем наш код в открытом доступе.
English
We introduce Reinforcement Learning (RL) with Adaptive Verifiable Environments (RLVE), an approach using verifiable environments that procedurally generate problems and provide algorithmically verifiable rewards, to scale up RL for language models (LMs). RLVE enables each verifiable environment to dynamically adapt its problem difficulty distribution to the policy model's capabilities as training progresses. In contrast, static data distributions often lead to vanishing learning signals when problems are either too easy or too hard for the policy. To implement RLVE, we create RLVE-Gym, a large-scale suite of 400 verifiable environments carefully developed through manual environment engineering. Using RLVE-Gym, we show that environment scaling, i.e., expanding the collection of training environments, consistently improves generalizable reasoning capabilities. RLVE with joint training across all 400 environments in RLVE-Gym yields a 3.37% absolute average improvement across six reasoning benchmarks, starting from one of the strongest 1.5B reasoning LMs. By comparison, continuing this LM's original RL training yields only a 0.49% average absolute gain despite using over 3x more compute. We release our code publicly.
PDF122December 2, 2025