ChatPaper.aiChatPaper

RLVE: Scalabilità dell'Apprendimento per Rinforzo per Modelli Linguistici con Ambienti Verificabili Adattivi

RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments

November 10, 2025
Autori: Zhiyuan Zeng, Hamish Ivison, Yiping Wang, Lifan Yuan, Shuyue Stella Li, Zhuorui Ye, Siting Li, Jacqueline He, Runlong Zhou, Tong Chen, Chenyang Zhao, Yulia Tsvetkov, Simon Shaolei Du, Natasha Jaques, Hao Peng, Pang Wei Koh, Hannaneh Hajishirzi
cs.AI

Abstract

Introduciamo il Reinforcement Learning (RL) con Ambienti Verificabili Adattivi (RLVE), un approccio che utilizza ambienti verificabili in grado di generare proceduralmente problemi e fornire ricompense verificabili algoritmicamente, per scalare il RL per i modelli linguistici (LM). RLVE consente a ciascun ambiente verificabile di adattare dinamicamente la distribuzione della difficoltà dei problemi alle capacità del modello di policy man mano che l'addestramento procede. Al contrario, le distribuzioni di dati statiche spesso portano a segnali di apprendimento che svaniscono quando i problemi sono troppo facili o troppo difficili per la policy. Per implementare RLVE, abbiamo creato RLVE-Gym, una suite su larga scala di 400 ambienti verificabili, sviluppati accuratamente attraverso un'ingegneria manuale degli ambienti. Utilizzando RLVE-Gym, dimostriamo che il ridimensionamento degli ambienti, ovvero l'espansione della collezione di ambienti di addestramento, migliora costantemente le capacità di ragionamento generalizzabili. RLVE con addestramento congiunto su tutti i 400 ambienti in RLVE-Gym produce un miglioramento medio assoluto del 3,37% su sei benchmark di ragionamento, partendo da uno dei più potenti LM da 1,5B per il ragionamento. In confronto, proseguire l'addestramento RL originale di questo LM produce solo un guadagno medio assoluto dello 0,49%, nonostante utilizzi oltre 3 volte più potenza di calcolo. Rilasciamo pubblicamente il nostro codice.
English
We introduce Reinforcement Learning (RL) with Adaptive Verifiable Environments (RLVE), an approach using verifiable environments that procedurally generate problems and provide algorithmically verifiable rewards, to scale up RL for language models (LMs). RLVE enables each verifiable environment to dynamically adapt its problem difficulty distribution to the policy model's capabilities as training progresses. In contrast, static data distributions often lead to vanishing learning signals when problems are either too easy or too hard for the policy. To implement RLVE, we create RLVE-Gym, a large-scale suite of 400 verifiable environments carefully developed through manual environment engineering. Using RLVE-Gym, we show that environment scaling, i.e., expanding the collection of training environments, consistently improves generalizable reasoning capabilities. RLVE with joint training across all 400 environments in RLVE-Gym yields a 3.37% absolute average improvement across six reasoning benchmarks, starting from one of the strongest 1.5B reasoning LMs. By comparison, continuing this LM's original RL training yields only a 0.49% average absolute gain despite using over 3x more compute. We release our code publicly.
PDF122December 2, 2025