RLVR-World : Entraînement de modèles du monde avec apprentissage par renforcement

papers.abstract

Les modèles du monde prédisent les transitions d'état en réponse à des actions et sont de plus en plus développés à travers diverses modalités. Cependant, les objectifs d'entraînement standards tels que l'estimation du maximum de vraisemblance (MLE) sont souvent mal alignés avec les objectifs spécifiques aux tâches des modèles du monde, c'est-à-dire des métriques de prédiction de transition comme la précision ou la qualité perceptuelle. Dans cet article, nous présentons RLVR-World, un cadre unifié qui exploite l'apprentissage par renforcement avec des récompenses vérifiables (RLVR) pour optimiser directement les modèles du monde pour de telles métriques. Bien que la modélisation du monde soit formulée comme une prédiction autorégressive de séquences tokenisées, RLVR-World évalue les métriques des prédictions décodées comme des récompenses vérifiables. Nous démontrons des gains de performance substantiels sur des modèles du monde basés sur le langage et la vidéo dans divers domaines, y compris les jeux textuels, la navigation web et la manipulation robotique. Notre travail indique que, au-delà des avancées récentes dans les modèles de langage de raisonnement, RLVR offre un paradigme prometteur de post-entraînement pour améliorer l'utilité des modèles génératifs de manière plus large.

English

World models predict state transitions in response to actions and are increasingly developed across diverse modalities. However, standard training objectives such as maximum likelihood estimation (MLE) often misalign with task-specific goals of world models, i.e., transition prediction metrics like accuracy or perceptual quality. In this paper, we present RLVR-World, a unified framework that leverages reinforcement learning with verifiable rewards (RLVR) to directly optimize world models for such metrics. Despite formulating world modeling as autoregressive prediction of tokenized sequences, RLVR-World evaluates metrics of decoded predictions as verifiable rewards. We demonstrate substantial performance gains on both language- and video-based world models across domains, including text games, web navigation, and robot manipulation. Our work indicates that, beyond recent advances in reasoning language models, RLVR offers a promising post-training paradigm for enhancing the utility of generative models more broadly.

RLVR-World : Entraînement de modèles du monde avec apprentissage par renforcement

RLVR-World: Training World Models with Reinforcement Learning

papers.abstract

Support