ChatPaper.aiChatPaper

iVideoGPT: i VideoGPT interattivi sono modelli scalabili del mondo

iVideoGPT: Interactive VideoGPTs are Scalable World Models

May 24, 2024
Autori: Jialong Wu, Shaofeng Yin, Ningya Feng, Xu He, Dong Li, Jianye Hao, Mingsheng Long
cs.AI

Abstract

I modelli del mondo (world models) consentono agli agenti basati su modelli di esplorare, ragionare e pianificare in modo interattivo all'interno di ambienti immaginati per il processo decisionale nel mondo reale. Tuttavia, l'elevata richiesta di interattività pone sfide nello sfruttare i recenti progressi nei modelli generativi di video per sviluppare modelli del mondo su larga scala. Questo lavoro introduce Interactive VideoGPT (iVideoGPT), un framework scalabile basato su trasformatori autoregressivi che integra segnali multimodali—osservazioni visive, azioni e ricompense—in una sequenza di token, facilitando un'esperienza interattiva degli agenti tramite la previsione del token successivo. iVideoGPT presenta una tecnica innovativa di tokenizzazione compressiva che discretizza in modo efficiente osservazioni visive ad alta dimensionalità. Sfruttando la sua architettura scalabile, siamo in grado di pre-addestrare iVideoGPT su milioni di traiettorie di manipolazione umana e robotica, stabilendo una base versatile adattabile per fungere da modelli del mondo interattivi per un'ampia gamma di task downstream. Questi includono la previsione di video condizionata all'azione, la pianificazione visiva e l'apprendimento per rinforzo basato su modelli, dove iVideoGPT raggiunge prestazioni competitive rispetto ai metodi all'avanguardia. Il nostro lavoro avanza lo sviluppo di modelli del mondo generali interattivi, colmando il divario tra i modelli generativi di video e le applicazioni pratiche dell'apprendimento per rinforzo basato su modelli.
English
World models empower model-based agents to interactively explore, reason, and plan within imagined environments for real-world decision-making. However, the high demand for interactivity poses challenges in harnessing recent advancements in video generative models for developing world models at scale. This work introduces Interactive VideoGPT (iVideoGPT), a scalable autoregressive transformer framework that integrates multimodal signals--visual observations, actions, and rewards--into a sequence of tokens, facilitating an interactive experience of agents via next-token prediction. iVideoGPT features a novel compressive tokenization technique that efficiently discretizes high-dimensional visual observations. Leveraging its scalable architecture, we are able to pre-train iVideoGPT on millions of human and robotic manipulation trajectories, establishing a versatile foundation that is adaptable to serve as interactive world models for a wide range of downstream tasks. These include action-conditioned video prediction, visual planning, and model-based reinforcement learning, where iVideoGPT achieves competitive performance compared with state-of-the-art methods. Our work advances the development of interactive general world models, bridging the gap between generative video models and practical model-based reinforcement learning applications.
PDF174December 15, 2024