iVideoGPT: Modelos de Mundo Escaláveis e Interativos com VideoGPT
iVideoGPT: Interactive VideoGPTs are Scalable World Models
May 24, 2024
Autores: Jialong Wu, Shaofeng Yin, Ningya Feng, Xu He, Dong Li, Jianye Hao, Mingsheng Long
cs.AI
Resumo
Modelos de mundo capacitam agentes baseados em modelos a explorar, raciocinar e planejar de forma interativa dentro de ambientes imaginados para a tomada de decisões no mundo real. No entanto, a alta demanda por interatividade apresenta desafios na utilização dos avanços recentes em modelos generativos de vídeo para o desenvolvimento de modelos de mundo em escala. Este trabalho introduz o Interactive VideoGPT (iVideoGPT), uma estrutura escalável de transformadores autoregressivos que integra sinais multimodais—observações visuais, ações e recompensas—em uma sequência de tokens, facilitando uma experiência interativa dos agentes por meio da previsão do próximo token. O iVideoGPT apresenta uma técnica inovadora de tokenização compressiva que discretiza eficientemente observações visuais de alta dimensionalidade. Aproveitando sua arquitetura escalável, conseguimos pré-treinar o iVideoGPT em milhões de trajetórias de manipulação humana e robótica, estabelecendo uma base versátil que é adaptável para servir como modelos de mundo interativos para uma ampla gama de tarefas subsequentes. Estas incluem previsão de vídeo condicionada por ações, planejamento visual e aprendizado por reforço baseado em modelo, onde o iVideoGPT alcança desempenho competitivo em comparação com métodos de ponta. Nosso trabalho avança o desenvolvimento de modelos de mundo gerais interativos, reduzindo a lacuna entre modelos generativos de vídeo e aplicações práticas de aprendizado por reforço baseado em modelo.
English
World models empower model-based agents to interactively explore, reason, and
plan within imagined environments for real-world decision-making. However, the
high demand for interactivity poses challenges in harnessing recent
advancements in video generative models for developing world models at scale.
This work introduces Interactive VideoGPT (iVideoGPT), a scalable
autoregressive transformer framework that integrates multimodal signals--visual
observations, actions, and rewards--into a sequence of tokens, facilitating an
interactive experience of agents via next-token prediction. iVideoGPT features
a novel compressive tokenization technique that efficiently discretizes
high-dimensional visual observations. Leveraging its scalable architecture, we
are able to pre-train iVideoGPT on millions of human and robotic manipulation
trajectories, establishing a versatile foundation that is adaptable to serve as
interactive world models for a wide range of downstream tasks. These include
action-conditioned video prediction, visual planning, and model-based
reinforcement learning, where iVideoGPT achieves competitive performance
compared with state-of-the-art methods. Our work advances the development of
interactive general world models, bridging the gap between generative video
models and practical model-based reinforcement learning applications.