ChatPaper.aiChatPaper

RLVR-World: Wereldmodellen trainen met Reinforcement Learning

RLVR-World: Training World Models with Reinforcement Learning

May 20, 2025
Auteurs: Jialong Wu, Shaofeng Yin, Ningya Feng, Mingsheng Long
cs.AI

Samenvatting

Wereldmodellen voorspellen staatsovergangen als reactie op acties en worden steeds vaker ontwikkeld voor diverse modaliteiten. Echter, standaard trainingsdoelstellingen zoals maximum likelihood estimation (MLE) komen vaak niet overeen met de taakspecifieke doelen van wereldmodellen, zoals voorspellingsmetrieken voor overgangen zoals nauwkeurigheid of perceptuele kwaliteit. In dit artikel presenteren we RLVR-World, een geïntegreerd framework dat reinforcement learning met verifieerbare beloningen (RLVR) benut om wereldmodellen direct te optimaliseren voor dergelijke metrieken. Ondanks het formuleren van wereldmodellering als autoregressieve voorspelling van getokeniseerde sequenties, evalueert RLVR-World metrieken van gedecodeerde voorspellingen als verifieerbare beloningen. We demonstreren aanzienlijke prestatieverbeteringen voor zowel taal- als videogebaseerde wereldmodellen in verschillende domeinen, waaronder tekstspellen, webnavigatie en robotmanipulatie. Ons werk toont aan dat RLVR, naast recente vooruitgang in redenerende taalmmodellen, een veelbelovend post-trainingsparadigma biedt voor het verbeteren van de bruikbaarheid van generatieve modellen in bredere zin.
English
World models predict state transitions in response to actions and are increasingly developed across diverse modalities. However, standard training objectives such as maximum likelihood estimation (MLE) often misalign with task-specific goals of world models, i.e., transition prediction metrics like accuracy or perceptual quality. In this paper, we present RLVR-World, a unified framework that leverages reinforcement learning with verifiable rewards (RLVR) to directly optimize world models for such metrics. Despite formulating world modeling as autoregressive prediction of tokenized sequences, RLVR-World evaluates metrics of decoded predictions as verifiable rewards. We demonstrate substantial performance gains on both language- and video-based world models across domains, including text games, web navigation, and robot manipulation. Our work indicates that, beyond recent advances in reasoning language models, RLVR offers a promising post-training paradigm for enhancing the utility of generative models more broadly.
PDF152May 22, 2025