iVideoGPT : Les modèles VideoGPT interactifs sont des modèles du monde évolutifs
iVideoGPT: Interactive VideoGPTs are Scalable World Models
May 24, 2024
Auteurs: Jialong Wu, Shaofeng Yin, Ningya Feng, Xu He, Dong Li, Jianye Hao, Mingsheng Long
cs.AI
Résumé
Les modèles du monde permettent aux agents basés sur des modèles d'explorer de manière interactive, de raisonner et de planifier au sein d'environnements imaginés pour la prise de décision dans le monde réel. Cependant, la forte demande d'interactivité pose des défis pour exploiter les avancées récentes des modèles génératifs vidéo dans le développement de modèles du monde à grande échelle. Ce travail présente Interactive VideoGPT (iVideoGPT), un cadre d'architecture transformer autorégressif et scalable qui intègre des signaux multimodaux—observations visuelles, actions et récompenses—dans une séquence de tokens, facilitant une expérience interactive des agents via la prédiction du token suivant. iVideoGPT intègre une technique de tokenisation compressive innovante qui discrétise efficacement les observations visuelles de haute dimension. En tirant parti de son architecture scalable, nous pouvons pré-entraîner iVideoGPT sur des millions de trajectoires de manipulation humaine et robotique, établissant ainsi une base polyvalente adaptable pour servir de modèles du monde interactifs pour une large gamme de tâches en aval. Celles-ci incluent la prédiction vidéo conditionnée par l'action, la planification visuelle et l'apprentissage par renforcement basé sur des modèles, où iVideoGPT atteint des performances compétitives par rapport aux méthodes de pointe. Notre travail fait progresser le développement de modèles du monde généraux interactifs, comblant ainsi l'écart entre les modèles génératifs vidéo et les applications pratiques d'apprentissage par renforcement basé sur des modèles.
English
World models empower model-based agents to interactively explore, reason, and
plan within imagined environments for real-world decision-making. However, the
high demand for interactivity poses challenges in harnessing recent
advancements in video generative models for developing world models at scale.
This work introduces Interactive VideoGPT (iVideoGPT), a scalable
autoregressive transformer framework that integrates multimodal signals--visual
observations, actions, and rewards--into a sequence of tokens, facilitating an
interactive experience of agents via next-token prediction. iVideoGPT features
a novel compressive tokenization technique that efficiently discretizes
high-dimensional visual observations. Leveraging its scalable architecture, we
are able to pre-train iVideoGPT on millions of human and robotic manipulation
trajectories, establishing a versatile foundation that is adaptable to serve as
interactive world models for a wide range of downstream tasks. These include
action-conditioned video prediction, visual planning, and model-based
reinforcement learning, where iVideoGPT achieves competitive performance
compared with state-of-the-art methods. Our work advances the development of
interactive general world models, bridging the gap between generative video
models and practical model-based reinforcement learning applications.Summary
AI-Generated Summary