iVideoGPT: Los VideoGPTs Interactivos son Modelos del Mundo Escalables
iVideoGPT: Interactive VideoGPTs are Scalable World Models
May 24, 2024
Autores: Jialong Wu, Shaofeng Yin, Ningya Feng, Xu He, Dong Li, Jianye Hao, Mingsheng Long
cs.AI
Resumen
Los modelos del mundo capacitan a los agentes basados en modelos para explorar, razonar y planificar de manera interactiva dentro de entornos imaginados, con el fin de tomar decisiones en el mundo real. Sin embargo, la alta demanda de interactividad plantea desafíos al aprovechar los avances recientes en modelos generativos de video para desarrollar modelos del mundo a gran escala. Este trabajo presenta Interactive VideoGPT (iVideoGPT), un marco escalable de transformadores autorregresivos que integra señales multimodales—observaciones visuales, acciones y recompensas—en una secuencia de tokens, facilitando una experiencia interactiva de los agentes mediante la predicción del siguiente token. iVideoGPT incluye una novedosa técnica de tokenización compresiva que discretiza eficientemente observaciones visuales de alta dimensionalidad. Aprovechando su arquitectura escalable, hemos podido preentrenar iVideoGPT en millones de trayectorias de manipulación humana y robótica, estableciendo una base versátil que es adaptable para servir como modelos del mundo interactivos en una amplia gama de tareas posteriores. Estas incluyen la predicción de video condicionada por acciones, planificación visual y aprendizaje por refuerzo basado en modelos, donde iVideoGPT logra un rendimiento competitivo en comparación con los métodos más avanzados. Nuestro trabajo avanza en el desarrollo de modelos del mundo generales e interactivos, cerrando la brecha entre los modelos generativos de video y las aplicaciones prácticas de aprendizaje por refuerzo basado en modelos.
English
World models empower model-based agents to interactively explore, reason, and
plan within imagined environments for real-world decision-making. However, the
high demand for interactivity poses challenges in harnessing recent
advancements in video generative models for developing world models at scale.
This work introduces Interactive VideoGPT (iVideoGPT), a scalable
autoregressive transformer framework that integrates multimodal signals--visual
observations, actions, and rewards--into a sequence of tokens, facilitating an
interactive experience of agents via next-token prediction. iVideoGPT features
a novel compressive tokenization technique that efficiently discretizes
high-dimensional visual observations. Leveraging its scalable architecture, we
are able to pre-train iVideoGPT on millions of human and robotic manipulation
trajectories, establishing a versatile foundation that is adaptable to serve as
interactive world models for a wide range of downstream tasks. These include
action-conditioned video prediction, visual planning, and model-based
reinforcement learning, where iVideoGPT achieves competitive performance
compared with state-of-the-art methods. Our work advances the development of
interactive general world models, bridging the gap between generative video
models and practical model-based reinforcement learning applications.