iVideoGPT: Интерактивные VideoGPT - масштабируемые модели миров
iVideoGPT: Interactive VideoGPTs are Scalable World Models
May 24, 2024
Авторы: Jialong Wu, Shaofeng Yin, Ningya Feng, Xu He, Dong Li, Jianye Hao, Mingsheng Long
cs.AI
Аннотация
Мировые модели позволяют агентам, основанным на моделях, взаимодействовать, рассуждать и планировать в воображаемых окружениях для принятия решений в реальном мире. Однако высокий спрос на интерактивность создает вызовы в использовании недавних достижений в области видео-генеративных моделей для разработки мировых моделей в масштабе. В данной работе представлен Interactive VideoGPT (iVideoGPT), масштабируемая авторегрессионная трансформерная структура, интегрирующая мультимодальные сигналы - визуальные наблюдения, действия и вознаграждения - в последовательность токенов, обеспечивая интерактивный опыт агентов через предсказание следующего токена. iVideoGPT включает в себя новую технику компрессивной токенизации, которая эффективно дискретизирует высокоразмерные визуальные наблюдения. Используя его масштабируемую архитектуру, мы можем предварительно обучить iVideoGPT на миллионах траекторий человеческого и роботизированного манипулирования, создавая универсальное основание, которое адаптируется для использования в качестве интерактивных мировых моделей для широкого спектра последующих задач. Среди них - предсказание видео с учетом действий, визуальное планирование и обучение с подкреплением на основе моделей, где iVideoGPT достигает конкурентоспособной производительности по сравнению с современными методами. Наша работа способствует развитию интерактивных общих мировых моделей, сокращая разрыв между генеративными видео-моделями и практическими приложениями обучения с подкреплением на основе моделей.
English
World models empower model-based agents to interactively explore, reason, and
plan within imagined environments for real-world decision-making. However, the
high demand for interactivity poses challenges in harnessing recent
advancements in video generative models for developing world models at scale.
This work introduces Interactive VideoGPT (iVideoGPT), a scalable
autoregressive transformer framework that integrates multimodal signals--visual
observations, actions, and rewards--into a sequence of tokens, facilitating an
interactive experience of agents via next-token prediction. iVideoGPT features
a novel compressive tokenization technique that efficiently discretizes
high-dimensional visual observations. Leveraging its scalable architecture, we
are able to pre-train iVideoGPT on millions of human and robotic manipulation
trajectories, establishing a versatile foundation that is adaptable to serve as
interactive world models for a wide range of downstream tasks. These include
action-conditioned video prediction, visual planning, and model-based
reinforcement learning, where iVideoGPT achieves competitive performance
compared with state-of-the-art methods. Our work advances the development of
interactive general world models, bridging the gap between generative video
models and practical model-based reinforcement learning applications.Summary
AI-Generated Summary