ChatPaper.aiChatPaper

RLVE: Skalierung von Reinforcement Learning für Sprachmodelle mit adaptiven verifizierbaren Umgebungen

RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments

November 10, 2025
papers.authors: Zhiyuan Zeng, Hamish Ivison, Yiping Wang, Lifan Yuan, Shuyue Stella Li, Zhuorui Ye, Siting Li, Jacqueline He, Runlong Zhou, Tong Chen, Chenyang Zhao, Yulia Tsvetkov, Simon Shaolei Du, Natasha Jaques, Hao Peng, Pang Wei Koh, Hannaneh Hajishirzi
cs.AI

papers.abstract

Wir stellen Reinforcement Learning (RL) mit adaptiven verifizierbaren Umgebungen (RLVE) vor, einen Ansatz, der verifizierbare Umgebungen nutzt, um Probleme prozedural zu generieren und algorithmisch überprüfbare Belohnungen zu liefern, um RL für Sprachmodelle (LMs) zu skalieren. RLVE ermöglicht es jeder verifizierbaren Umgebung, ihre Verteilung der Problem-Schwierigkeitsgrade dynamisch an die Fähigkeiten des Policy-Modells anzupassen, während das Training fortschreitet. Im Gegensatz dazu führen statische Datenverteilungen oft zu verschwindenden Lernsignalen, wenn Probleme für die Policy entweder zu einfach oder zu schwierig sind. Zur Implementierung von RLVE entwickeln wir RLVE-Gym, eine umfangreiche Sammlung von 400 verifizierbaren Umgebungen, die sorgfältig durch manuelles Environment-Engineering erstellt wurden. Mit RLVE-Gym zeigen wir, dass Environment-Skalierung, d.h. die Erweiterung der Sammlung von Trainingsumgebungen, die generalisierbaren Reasoning-Fähigkeiten konsequent verbessert. RLVE mit gemeinsamem Training über alle 400 Umgebungen in RLVE-Gym erzielt eine absolute durchschnittliche Verbesserung von 3,37 % über sechs Reasoning-Benchmarks hinweg, ausgehend von einem der stärksten 1,5B Reasoning-LMs. Im Vergleich dazu erzielt die Fortsetzung des ursprünglichen RL-Trainings dieses LMs nur einen durchschnittlichen absoluten Zuwachs von 0,49 %, obwohl mehr als die dreifache Rechenleistung verwendet wird. Wir veröffentlichen unseren Code öffentlich.
English
We introduce Reinforcement Learning (RL) with Adaptive Verifiable Environments (RLVE), an approach using verifiable environments that procedurally generate problems and provide algorithmically verifiable rewards, to scale up RL for language models (LMs). RLVE enables each verifiable environment to dynamically adapt its problem difficulty distribution to the policy model's capabilities as training progresses. In contrast, static data distributions often lead to vanishing learning signals when problems are either too easy or too hard for the policy. To implement RLVE, we create RLVE-Gym, a large-scale suite of 400 verifiable environments carefully developed through manual environment engineering. Using RLVE-Gym, we show that environment scaling, i.e., expanding the collection of training environments, consistently improves generalizable reasoning capabilities. RLVE with joint training across all 400 environments in RLVE-Gym yields a 3.37% absolute average improvement across six reasoning benchmarks, starting from one of the strongest 1.5B reasoning LMs. By comparison, continuing this LM's original RL training yields only a 0.49% average absolute gain despite using over 3x more compute. We release our code publicly.
PDF122December 2, 2025