ChatPaper.aiChatPaper

RLVE: 적응형 검증 가능 환경을 통한 언어 모델 강화 학습 확장

RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments

November 10, 2025
저자: Zhiyuan Zeng, Hamish Ivison, Yiping Wang, Lifan Yuan, Shuyue Stella Li, Zhuorui Ye, Siting Li, Jacqueline He, Runlong Zhou, Tong Chen, Chenyang Zhao, Yulia Tsvetkov, Simon Shaolei Du, Natasha Jaques, Hao Peng, Pang Wei Koh, Hannaneh Hajishirzi
cs.AI

초록

우리는 언어 모델(LM)의 강화 학습(RL)을 확장하기 위해, 절차적으로 문제를 생성하고 알고리즘적으로 검증 가능한 보상을 제공하는 검증 가능 환경을 활용하는 접근법인 RLVE(Adaptive Verifiable Environments)를 소개합니다. RLVE는 각 검증 가능 환경이 학습 진행에 따라 정책 모델의 능력에 맞춰 문제 난이도 분포를 동적으로 조정할 수 있게 합니다. 이와 대조적으로, 정적 데이터 분포는 문제가 정책에 비해 너무 쉬우거나 어려울 경우 학습 신호가 사라지는 경우가 많습니다. RLVE를 구현하기 위해 수동 환경 엔지니어링을 통해 신중하게 개발된 400개의 검증 가능 환경으로 구성된 대규모 제품군인 RLVE-Gym을 구축했습니다. RLVE-Gym을 사용하여 훈련 환경 컬렉션을 확장하는 환경 스케일링이 일반화된 추론 능력을 꾸준히 향상시킴을 보여줍니다. RLVE-Gym의 400개 환경 전체를 대상으로 한 공동 훈련을 적용한 RLVE는 가장 강력한 1.5B 매개변수 추론 LM 중 하나를 시작점으로 하여 6개의 추론 벤치마크에서 평균 3.37%의 절대적 향상을 달성했습니다. 비교적으로, 해당 LM의 기존 RL 훈련을 지속하는 경우 3배 이상의 계산 자원을 사용했음에도 평균 절대 향상률은 0.49%에 그쳤습니다. 우리는 코드를 공개합니다.
English
We introduce Reinforcement Learning (RL) with Adaptive Verifiable Environments (RLVE), an approach using verifiable environments that procedurally generate problems and provide algorithmically verifiable rewards, to scale up RL for language models (LMs). RLVE enables each verifiable environment to dynamically adapt its problem difficulty distribution to the policy model's capabilities as training progresses. In contrast, static data distributions often lead to vanishing learning signals when problems are either too easy or too hard for the policy. To implement RLVE, we create RLVE-Gym, a large-scale suite of 400 verifiable environments carefully developed through manual environment engineering. Using RLVE-Gym, we show that environment scaling, i.e., expanding the collection of training environments, consistently improves generalizable reasoning capabilities. RLVE with joint training across all 400 environments in RLVE-Gym yields a 3.37% absolute average improvement across six reasoning benchmarks, starting from one of the strongest 1.5B reasoning LMs. By comparison, continuing this LM's original RL training yields only a 0.49% average absolute gain despite using over 3x more compute. We release our code publicly.
PDF122December 2, 2025