iVideoGPT: Interactieve VideoGPT's zijn schaalbare wereldmodellen
iVideoGPT: Interactive VideoGPTs are Scalable World Models
May 24, 2024
Auteurs: Jialong Wu, Shaofeng Yin, Ningya Feng, Xu He, Dong Li, Jianye Hao, Mingsheng Long
cs.AI
Samenvatting
Wereldmodellen stellen modelgebaseerde agents in staat om interactief te verkennen, redeneren en plannen binnen verbeeldde omgevingen voor besluitvorming in de echte wereld. De hoge vraag naar interactiviteit brengt echter uitdagingen met zich mee bij het benutten van recente vooruitgang in videogeneratieve modellen voor de ontwikkeling van wereldmodellen op grote schaal. Dit werk introduceert Interactive VideoGPT (iVideoGPT), een schaalbaar autoregressief transformer-raamwerk dat multimodale signalen—visuele waarnemingen, acties en beloningen—integreert in een reeks tokens, waardoor een interactieve ervaring van agents mogelijk wordt gemaakt via next-token voorspelling. iVideoGPT beschikt over een innovatieve compressieve tokenisatietechniek die hoogdimensionale visuele waarnemingen efficiënt discretiseert. Door gebruik te maken van de schaalbare architectuur kunnen we iVideoGPT vooraf trainen op miljoenen menselijke en robotische manipulatietrajecten, waardoor een veelzijdige basis wordt gecreëerd die aanpasbaar is om te dienen als interactieve wereldmodellen voor een breed scala aan downstream taken. Deze omvatten actie-geconditioneerde videovoorspelling, visuele planning en modelgebaseerde reinforcement learning, waarbij iVideoGPT competitieve prestaties behaalt in vergelijking met state-of-the-art methoden. Ons werk bevordert de ontwikkeling van interactieve algemene wereldmodellen en overbrugt de kloof tussen generatieve videomodellen en praktische modelgebaseerde reinforcement learning-toepassingen.
English
World models empower model-based agents to interactively explore, reason, and
plan within imagined environments for real-world decision-making. However, the
high demand for interactivity poses challenges in harnessing recent
advancements in video generative models for developing world models at scale.
This work introduces Interactive VideoGPT (iVideoGPT), a scalable
autoregressive transformer framework that integrates multimodal signals--visual
observations, actions, and rewards--into a sequence of tokens, facilitating an
interactive experience of agents via next-token prediction. iVideoGPT features
a novel compressive tokenization technique that efficiently discretizes
high-dimensional visual observations. Leveraging its scalable architecture, we
are able to pre-train iVideoGPT on millions of human and robotic manipulation
trajectories, establishing a versatile foundation that is adaptable to serve as
interactive world models for a wide range of downstream tasks. These include
action-conditioned video prediction, visual planning, and model-based
reinforcement learning, where iVideoGPT achieves competitive performance
compared with state-of-the-art methods. Our work advances the development of
interactive general world models, bridging the gap between generative video
models and practical model-based reinforcement learning applications.