RLVE: Escalando el Aprendizaje por Refuerzo para Modelos de Lenguaje con Entornos Verificables Adaptativos
RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments
November 10, 2025
Autores: Zhiyuan Zeng, Hamish Ivison, Yiping Wang, Lifan Yuan, Shuyue Stella Li, Zhuorui Ye, Siting Li, Jacqueline He, Runlong Zhou, Tong Chen, Chenyang Zhao, Yulia Tsvetkov, Simon Shaolei Du, Natasha Jaques, Hao Peng, Pang Wei Koh, Hannaneh Hajishirzi
cs.AI
Resumen
Presentamos el Aprendizaje por Refuerzo (RL) con Entornos Verificables Adaptativos (RLVE), un enfoque que utiliza entornos verificables que generan problemas de forma procedural y proporcionan recompensas algorítmicamente verificables, para escalar el RL en modelos de lenguaje (LM). RLVE permite que cada entorno verificable adapte dinámicamente su distribución de dificultad de problemas a las capacidades del modelo de política a medida que avanza el entrenamiento. En contraste, las distribuciones de datos estáticas a menudo conducen a señales de aprendizaje que se desvanecen cuando los problemas son demasiado fáciles o demasiado difíciles para la política. Para implementar RLVE, creamos RLVE-Gym, un conjunto a gran escala de 400 entornos verificables desarrollados meticulosamente mediante ingeniería manual de entornos. Utilizando RLVE-Gym, demostramos que el escalado de entornos, es decir, la expansión de la colección de entornos de entrenamiento, mejora consistentemente las capacidades de razonamiento generalizables. RLVE con entrenamiento conjunto en los 400 entornos de RLVE-Gym produce una mejora absoluta promedio del 3.37% en seis benchmarks de razonamiento, partiendo de uno de los LM de razonamiento de 1.5B más potentes. En comparación, continuar el entrenamiento original de RL de este LM produce solo una ganancia absoluta promedio del 0.49%, a pesar de utilizar más de 3 veces más capacidad de cómputo. Publicamos nuestro código abiertamente.
English
We introduce Reinforcement Learning (RL) with Adaptive Verifiable
Environments (RLVE), an approach using verifiable environments that
procedurally generate problems and provide algorithmically verifiable rewards,
to scale up RL for language models (LMs). RLVE enables each verifiable
environment to dynamically adapt its problem difficulty distribution to the
policy model's capabilities as training progresses. In contrast, static data
distributions often lead to vanishing learning signals when problems are either
too easy or too hard for the policy. To implement RLVE, we create RLVE-Gym, a
large-scale suite of 400 verifiable environments carefully developed through
manual environment engineering. Using RLVE-Gym, we show that environment
scaling, i.e., expanding the collection of training environments, consistently
improves generalizable reasoning capabilities. RLVE with joint training across
all 400 environments in RLVE-Gym yields a 3.37% absolute average improvement
across six reasoning benchmarks, starting from one of the strongest 1.5B
reasoning LMs. By comparison, continuing this LM's original RL training yields
only a 0.49% average absolute gain despite using over 3x more compute. We
release our code publicly.