ChatPaper.aiChatPaper

iVideoGPT: Интерактивные VideoGPT - масштабируемые модели миров

iVideoGPT: Interactive VideoGPTs are Scalable World Models

May 24, 2024
Авторы: Jialong Wu, Shaofeng Yin, Ningya Feng, Xu He, Dong Li, Jianye Hao, Mingsheng Long
cs.AI

Аннотация

Мировые модели позволяют агентам, основанным на моделях, взаимодействовать, рассуждать и планировать в воображаемых окружениях для принятия решений в реальном мире. Однако высокий спрос на интерактивность создает вызовы в использовании недавних достижений в области видео-генеративных моделей для разработки мировых моделей в масштабе. В данной работе представлен Interactive VideoGPT (iVideoGPT), масштабируемая авторегрессионная трансформерная структура, интегрирующая мультимодальные сигналы - визуальные наблюдения, действия и вознаграждения - в последовательность токенов, обеспечивая интерактивный опыт агентов через предсказание следующего токена. iVideoGPT включает в себя новую технику компрессивной токенизации, которая эффективно дискретизирует высокоразмерные визуальные наблюдения. Используя его масштабируемую архитектуру, мы можем предварительно обучить iVideoGPT на миллионах траекторий человеческого и роботизированного манипулирования, создавая универсальное основание, которое адаптируется для использования в качестве интерактивных мировых моделей для широкого спектра последующих задач. Среди них - предсказание видео с учетом действий, визуальное планирование и обучение с подкреплением на основе моделей, где iVideoGPT достигает конкурентоспособной производительности по сравнению с современными методами. Наша работа способствует развитию интерактивных общих мировых моделей, сокращая разрыв между генеративными видео-моделями и практическими приложениями обучения с подкреплением на основе моделей.
English
World models empower model-based agents to interactively explore, reason, and plan within imagined environments for real-world decision-making. However, the high demand for interactivity poses challenges in harnessing recent advancements in video generative models for developing world models at scale. This work introduces Interactive VideoGPT (iVideoGPT), a scalable autoregressive transformer framework that integrates multimodal signals--visual observations, actions, and rewards--into a sequence of tokens, facilitating an interactive experience of agents via next-token prediction. iVideoGPT features a novel compressive tokenization technique that efficiently discretizes high-dimensional visual observations. Leveraging its scalable architecture, we are able to pre-train iVideoGPT on millions of human and robotic manipulation trajectories, establishing a versatile foundation that is adaptable to serve as interactive world models for a wide range of downstream tasks. These include action-conditioned video prediction, visual planning, and model-based reinforcement learning, where iVideoGPT achieves competitive performance compared with state-of-the-art methods. Our work advances the development of interactive general world models, bridging the gap between generative video models and practical model-based reinforcement learning applications.

Summary

AI-Generated Summary

PDF174December 15, 2024