RLVE: Opschalen van Reinforcement Learning voor Taalmodellen met Adaptieve Verifieerbare Omgevingen
RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments
November 10, 2025
Auteurs: Zhiyuan Zeng, Hamish Ivison, Yiping Wang, Lifan Yuan, Shuyue Stella Li, Zhuorui Ye, Siting Li, Jacqueline He, Runlong Zhou, Tong Chen, Chenyang Zhao, Yulia Tsvetkov, Simon Shaolei Du, Natasha Jaques, Hao Peng, Pang Wei Koh, Hannaneh Hajishirzi
cs.AI
Samenvatting
Wij introduceren Reinforcement Learning (RL) met Adaptieve Verifieerbare Omgevingen (RLVE), een aanpak die gebruikmaakt van verifieerbare omgevingen die procedureel problemen genereren en algoritmisch verifieerbare beloningen bieden, om RL voor taalmodel(len) (TM's) op te schalen. RLVE stelt elke verifieerbare omgeving in staat om de moeilijkheidsverdeling van haar problemen dynamisch aan te passen aan de capaciteiten van het beleidsmodel naarmate de training vordert. Statische dataverdelingen leiden daarentegen vaak tot vervagende leer-signalen wanneer problemen ofwel te gemakkelijk ofwel te moeilijk zijn voor het beleid. Om RLVE te implementeren, hebben wij RLVE-Gym ontwikkeld, een grootschalige suite van 400 zorgvuldig door middel van handmatige omgevings-engineering ontwikkelde, verifieerbare omgevingen. Met behulp van RLVE-Gym tonen wij aan dat omgevingsschaling, d.w.z. het uitbreiden van de collectie trainingsomgevingen, de generaliseerbare redeneervermogens consistent verbetert. RLVE met gezamenlijke training over alle 400 omgevingen in RLVE-Gym resulteert in een absolute gemiddelde verbetering van 3,37% over zes redeneerbenchmarks, uitgaande van een van de krachtigste 1,5B redeneer-TM's. Ter vergelijking: het voortzetten van de oorspronkelijke RL-training van dit TM levert slechts een gemiddelde absolute winst van 0,49% op, ondanks het gebruik van meer dan 3x zoveel rekenkracht. Wij stellen onze code openbaar beschikbaar.
English
We introduce Reinforcement Learning (RL) with Adaptive Verifiable
Environments (RLVE), an approach using verifiable environments that
procedurally generate problems and provide algorithmically verifiable rewards,
to scale up RL for language models (LMs). RLVE enables each verifiable
environment to dynamically adapt its problem difficulty distribution to the
policy model's capabilities as training progresses. In contrast, static data
distributions often lead to vanishing learning signals when problems are either
too easy or too hard for the policy. To implement RLVE, we create RLVE-Gym, a
large-scale suite of 400 verifiable environments carefully developed through
manual environment engineering. Using RLVE-Gym, we show that environment
scaling, i.e., expanding the collection of training environments, consistently
improves generalizable reasoning capabilities. RLVE with joint training across
all 400 environments in RLVE-Gym yields a 3.37% absolute average improvement
across six reasoning benchmarks, starting from one of the strongest 1.5B
reasoning LMs. By comparison, continuing this LM's original RL training yields
only a 0.49% average absolute gain despite using over 3x more compute. We
release our code publicly.