RLVE : Mise à l'échelle de l'Apprentissage par Renforcement pour les Modèles de Langage avec des Environnements Vérifiables Adaptatifs
RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments
November 10, 2025
papers.authors: Zhiyuan Zeng, Hamish Ivison, Yiping Wang, Lifan Yuan, Shuyue Stella Li, Zhuorui Ye, Siting Li, Jacqueline He, Runlong Zhou, Tong Chen, Chenyang Zhao, Yulia Tsvetkov, Simon Shaolei Du, Natasha Jaques, Hao Peng, Pang Wei Koh, Hannaneh Hajishirzi
cs.AI
papers.abstract
Nous présentons l'Apprentissage par Renforcement (RL) avec Environnements Vérifiables Adaptatifs (RLVE), une approche utilisant des environnements vérifiables qui génèrent procéduralement des problèmes et fournissent des récompenses algorithmiquement vérifiables, pour intensifier l'apprentissage par renforcement pour les modèles de langage (LM). RLVE permet à chaque environnement vérifiable d'adapter dynamiquement la distribution de difficulté des problèmes aux capacités du modèle de politique au fur et à mesure de l'entraînement. En revanche, les distributions de données statiques conduisent souvent à la disparition des signaux d'apprentissage lorsque les problèmes sont soit trop faciles, soit trop difficiles pour la politique. Pour implémenter RLVE, nous créons RLVE-Gym, une suite à grande échelle de 400 environnements vérifiables soigneusement développés par ingénierie manuelle des environnements. En utilisant RLVE-Gym, nous montrons que la mise à l'échelle des environnements, c'est-à-dire l'expansion de la collection d'environnements d'entraînement, améliore systématiquement les capacités de raisonnement généralisables. RLVE avec entraînement conjoint sur l'ensemble des 400 environnements de RLVE-Gym produit une amélioration absolue moyenne de 3,37 % sur six benchmarks de raisonnement, en partant de l'un des modèles de langage de raisonnement 1,5B les plus performants. En comparaison, la poursuite de l'entraînement RL original de ce LM ne produit qu'un gain absolu moyen de 0,49 % malgré l'utilisation de plus de 3 fois plus de calcul. Nous publions notre code ouvertement.
English
We introduce Reinforcement Learning (RL) with Adaptive Verifiable
Environments (RLVE), an approach using verifiable environments that
procedurally generate problems and provide algorithmically verifiable rewards,
to scale up RL for language models (LMs). RLVE enables each verifiable
environment to dynamically adapt its problem difficulty distribution to the
policy model's capabilities as training progresses. In contrast, static data
distributions often lead to vanishing learning signals when problems are either
too easy or too hard for the policy. To implement RLVE, we create RLVE-Gym, a
large-scale suite of 400 verifiable environments carefully developed through
manual environment engineering. Using RLVE-Gym, we show that environment
scaling, i.e., expanding the collection of training environments, consistently
improves generalizable reasoning capabilities. RLVE with joint training across
all 400 environments in RLVE-Gym yields a 3.37% absolute average improvement
across six reasoning benchmarks, starting from one of the strongest 1.5B
reasoning LMs. By comparison, continuing this LM's original RL training yields
only a 0.49% average absolute gain despite using over 3x more compute. We
release our code publicly.