ChatPaper.aiChatPaper

RLVE: 適応的検証可能環境による言語モデルの強化学習のスケールアップ

RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments

November 10, 2025
著者: Zhiyuan Zeng, Hamish Ivison, Yiping Wang, Lifan Yuan, Shuyue Stella Li, Zhuorui Ye, Siting Li, Jacqueline He, Runlong Zhou, Tong Chen, Chenyang Zhao, Yulia Tsvetkov, Simon Shaolei Du, Natasha Jaques, Hao Peng, Pang Wei Koh, Hannaneh Hajishirzi
cs.AI

要旨

本論文では、言語モデル(LM)の強化学習(RL)を拡張するため、検証可能な環境を用いて問題を手続き的に生成し、アルゴリズム的に検証可能な報酬を提供するアプローチである「適応型検証可能環境を用いた強化学習(RLVE)」を提案する。RLVEでは、各検証可能環境が学習の進行に応じて、方策モデルの能力に適応的に問題難易度分布を動的に調整する。対照的に、静的データ分布では、問題が方策に対して簡単すぎるか難しすぎる場合、学習信号が消失しがちである。RLVEを実装するため、我々は手作業による環境設計を慎重に行って開発した400の検証可能環境からなる大規模スイート「RLVE-Gym」を構築した。RLVE-Gymを用いた実験により、環境スケーリング(学習環境コレクションの拡大)が一般化可能な推論能力を一貫して向上させることを示す。RLVE-Gymの全400環境を統合学習したRLVEは、強力な1.5Bパラメータ推論LMを初期モデルとして、6つの推論ベンチマークで平均3.37%の絶対改善を達成した。比較対象として、同一LMの元のRL学習を継続した場合、計算量を3倍以上消費したにもかかわらず、平均絶対改善率は0.49%に留まった。我々はコードを公開している。
English
We introduce Reinforcement Learning (RL) with Adaptive Verifiable Environments (RLVE), an approach using verifiable environments that procedurally generate problems and provide algorithmically verifiable rewards, to scale up RL for language models (LMs). RLVE enables each verifiable environment to dynamically adapt its problem difficulty distribution to the policy model's capabilities as training progresses. In contrast, static data distributions often lead to vanishing learning signals when problems are either too easy or too hard for the policy. To implement RLVE, we create RLVE-Gym, a large-scale suite of 400 verifiable environments carefully developed through manual environment engineering. Using RLVE-Gym, we show that environment scaling, i.e., expanding the collection of training environments, consistently improves generalizable reasoning capabilities. RLVE with joint training across all 400 environments in RLVE-Gym yields a 3.37% absolute average improvement across six reasoning benchmarks, starting from one of the strongest 1.5B reasoning LMs. By comparison, continuing this LM's original RL training yields only a 0.49% average absolute gain despite using over 3x more compute. We release our code publicly.
PDF122December 2, 2025