RLVR-World : Entraînement de modèles du monde avec apprentissage par renforcement
RLVR-World: Training World Models with Reinforcement Learning
May 20, 2025
Auteurs: Jialong Wu, Shaofeng Yin, Ningya Feng, Mingsheng Long
cs.AI
Résumé
Les modèles du monde prédisent les transitions d'état en réponse à des actions et sont de plus en plus développés à travers diverses modalités. Cependant, les objectifs d'entraînement standards tels que l'estimation du maximum de vraisemblance (MLE) sont souvent mal alignés avec les objectifs spécifiques aux tâches des modèles du monde, c'est-à-dire des métriques de prédiction de transition comme la précision ou la qualité perceptuelle. Dans cet article, nous présentons RLVR-World, un cadre unifié qui exploite l'apprentissage par renforcement avec des récompenses vérifiables (RLVR) pour optimiser directement les modèles du monde pour de telles métriques. Bien que la modélisation du monde soit formulée comme une prédiction autorégressive de séquences tokenisées, RLVR-World évalue les métriques des prédictions décodées comme des récompenses vérifiables. Nous démontrons des gains de performance substantiels sur des modèles du monde basés sur le langage et la vidéo dans divers domaines, y compris les jeux textuels, la navigation web et la manipulation robotique. Notre travail indique que, au-delà des avancées récentes dans les modèles de langage de raisonnement, RLVR offre un paradigme prometteur de post-entraînement pour améliorer l'utilité des modèles génératifs de manière plus large.
English
World models predict state transitions in response to actions and are
increasingly developed across diverse modalities. However, standard training
objectives such as maximum likelihood estimation (MLE) often misalign with
task-specific goals of world models, i.e., transition prediction metrics like
accuracy or perceptual quality. In this paper, we present RLVR-World, a unified
framework that leverages reinforcement learning with verifiable rewards (RLVR)
to directly optimize world models for such metrics. Despite formulating world
modeling as autoregressive prediction of tokenized sequences, RLVR-World
evaluates metrics of decoded predictions as verifiable rewards. We demonstrate
substantial performance gains on both language- and video-based world models
across domains, including text games, web navigation, and robot manipulation.
Our work indicates that, beyond recent advances in reasoning language models,
RLVR offers a promising post-training paradigm for enhancing the utility of
generative models more broadly.Summary
AI-Generated Summary