iVideoGPT: Interaktive VideoGPTs sind skalierbare Weltmodelle.
iVideoGPT: Interactive VideoGPTs are Scalable World Models
May 24, 2024
Autoren: Jialong Wu, Shaofeng Yin, Ningya Feng, Xu He, Dong Li, Jianye Hao, Mingsheng Long
cs.AI
Zusammenfassung
Weltmodelle ermöglichen es modellbasierten Agenten, interaktiv zu erkunden, zu argumentieren und in vorgestellten Umgebungen für Entscheidungsfindungen in der realen Welt zu planen. Die hohe Nachfrage nach Interaktivität stellt jedoch Herausforderungen bei der Nutzung aktueller Fortschritte in der Entwicklung von Weltmodellen im großen Maßstab mit Hilfe von Video-generativen Modellen dar. Diese Arbeit stellt Interactive VideoGPT (iVideoGPT) vor, ein skalierbares autoregressives Transformer-Framework, das multimodale Signale - visuelle Beobachtungen, Aktionen und Belohnungen - in eine Sequenz von Tokens integriert, um eine interaktive Erfahrung von Agenten durch die Vorhersage des nächsten Tokens zu ermöglichen. iVideoGPT verfügt über eine neuartige komprimierende Tokenisierungstechnik, die hochdimensionale visuelle Beobachtungen effizient diskretisiert. Durch die Nutzung seiner skalierbaren Architektur können wir iVideoGPT auf Millionen von menschlichen und robotischen Manipulationstrajektorien vorab trainieren und so eine vielseitige Grundlage schaffen, die anpassungsfähig ist, um als interaktive Weltmodelle für eine Vielzahl von nachgelagerten Aufgaben zu dienen. Dazu gehören aktionskonditionierte Video-Vorhersage, visuelle Planung und modellbasiertes Verstärkungslernen, bei denen iVideoGPT im Vergleich zu State-of-the-Art-Methoden eine wettbewerbsfähige Leistung erzielt. Unsere Arbeit fördert die Entwicklung interaktiver allgemeiner Weltmodelle und schließt die Lücke zwischen generativen Videomodellen und praktischen modellbasierten Anwendungen des Verstärkungslernens.
English
World models empower model-based agents to interactively explore, reason, and
plan within imagined environments for real-world decision-making. However, the
high demand for interactivity poses challenges in harnessing recent
advancements in video generative models for developing world models at scale.
This work introduces Interactive VideoGPT (iVideoGPT), a scalable
autoregressive transformer framework that integrates multimodal signals--visual
observations, actions, and rewards--into a sequence of tokens, facilitating an
interactive experience of agents via next-token prediction. iVideoGPT features
a novel compressive tokenization technique that efficiently discretizes
high-dimensional visual observations. Leveraging its scalable architecture, we
are able to pre-train iVideoGPT on millions of human and robotic manipulation
trajectories, establishing a versatile foundation that is adaptable to serve as
interactive world models for a wide range of downstream tasks. These include
action-conditioned video prediction, visual planning, and model-based
reinforcement learning, where iVideoGPT achieves competitive performance
compared with state-of-the-art methods. Our work advances the development of
interactive general world models, bridging the gap between generative video
models and practical model-based reinforcement learning applications.Summary
AI-Generated Summary