ChatPaper.aiChatPaper

RLVR-World: Addestramento di Modelli del Mondo con Apprendimento per Rinforzo

RLVR-World: Training World Models with Reinforcement Learning

May 20, 2025
Autori: Jialong Wu, Shaofeng Yin, Ningya Feng, Mingsheng Long
cs.AI

Abstract

I modelli del mondo prevedono le transizioni di stato in risposta alle azioni e vengono sempre più sviluppati in diverse modalità. Tuttavia, gli obiettivi di addestramento standard come la stima di massima verosimiglianza (MLE) spesso non sono allineati con gli obiettivi specifici del compito dei modelli del mondo, ovvero metriche di previsione delle transizioni come accuratezza o qualità percettiva. In questo articolo, presentiamo RLVR-World, un framework unificato che sfrutta l'apprendimento per rinforzo con ricompense verificabili (RLVR) per ottimizzare direttamente i modelli del mondo per tali metriche. Nonostante la formulazione della modellazione del mondo come previsione autoregressiva di sequenze tokenizzate, RLVR-World valuta le metriche delle previsioni decodificate come ricompense verificabili. Dimostriamo significativi miglioramenti delle prestazioni sia sui modelli del mondo basati sul linguaggio che su quelli basati su video, in diversi ambiti, inclusi giochi di testo, navigazione web e manipolazione robotica. Il nostro lavoro indica che, oltre ai recenti progressi nei modelli linguistici di ragionamento, RLVR offre un paradigma promettente di post-addestramento per migliorare l'utilità dei modelli generativi in modo più ampio.
English
World models predict state transitions in response to actions and are increasingly developed across diverse modalities. However, standard training objectives such as maximum likelihood estimation (MLE) often misalign with task-specific goals of world models, i.e., transition prediction metrics like accuracy or perceptual quality. In this paper, we present RLVR-World, a unified framework that leverages reinforcement learning with verifiable rewards (RLVR) to directly optimize world models for such metrics. Despite formulating world modeling as autoregressive prediction of tokenized sequences, RLVR-World evaluates metrics of decoded predictions as verifiable rewards. We demonstrate substantial performance gains on both language- and video-based world models across domains, including text games, web navigation, and robot manipulation. Our work indicates that, beyond recent advances in reasoning language models, RLVR offers a promising post-training paradigm for enhancing the utility of generative models more broadly.
PDF152May 22, 2025