ChatPaper.aiChatPaper

RLVR-Mundo: Entrenamiento de Modelos del Mundo con Aprendizaje por Refuerzo

RLVR-World: Training World Models with Reinforcement Learning

May 20, 2025
Autores: Jialong Wu, Shaofeng Yin, Ningya Feng, Mingsheng Long
cs.AI

Resumen

Los modelos del mundo predicen transiciones de estado en respuesta a acciones y se desarrollan cada vez más en diversas modalidades. Sin embargo, los objetivos de entrenamiento estándar, como la estimación de máxima verosimilitud (MLE), a menudo no se alinean con los objetivos específicos de tareas de los modelos del mundo, es decir, métricas de predicción de transiciones como precisión o calidad perceptual. En este artículo, presentamos RLVR-World, un marco unificado que aprovecha el aprendizaje por refuerzo con recompensas verificables (RLVR) para optimizar directamente los modelos del mundo para dichas métricas. A pesar de formular el modelado del mundo como predicción autorregresiva de secuencias tokenizadas, RLVR-World evalúa métricas de predicciones decodificadas como recompensas verificables. Demostramos mejoras sustanciales en el rendimiento tanto en modelos del mundo basados en lenguaje como en video, en dominios que incluyen juegos de texto, navegación web y manipulación robótica. Nuestro trabajo indica que, más allá de los avances recientes en modelos de lenguaje de razonamiento, RLVR ofrece un paradigma prometedor de posentrenamiento para mejorar la utilidad de los modelos generativos de manera más amplia.
English
World models predict state transitions in response to actions and are increasingly developed across diverse modalities. However, standard training objectives such as maximum likelihood estimation (MLE) often misalign with task-specific goals of world models, i.e., transition prediction metrics like accuracy or perceptual quality. In this paper, we present RLVR-World, a unified framework that leverages reinforcement learning with verifiable rewards (RLVR) to directly optimize world models for such metrics. Despite formulating world modeling as autoregressive prediction of tokenized sequences, RLVR-World evaluates metrics of decoded predictions as verifiable rewards. We demonstrate substantial performance gains on both language- and video-based world models across domains, including text games, web navigation, and robot manipulation. Our work indicates that, beyond recent advances in reasoning language models, RLVR offers a promising post-training paradigm for enhancing the utility of generative models more broadly.

Summary

AI-Generated Summary

PDF102May 22, 2025