iVideoGPT: 상호작용 가능한 VideoGPT는 확장 가능한 세계 모델입니다
iVideoGPT: Interactive VideoGPTs are Scalable World Models
May 24, 2024
저자: Jialong Wu, Shaofeng Yin, Ningya Feng, Xu He, Dong Li, Jianye Hao, Mingsheng Long
cs.AI
초록
월드 모델은 모델 기반 에이전트가 실제 세계의 의사결정을 위해 상상된 환경 내에서 상호작용적으로 탐색, 추론 및 계획을 세울 수 있도록 지원합니다. 그러나 상호작용성에 대한 높은 요구는 최근 비디오 생성 모델의 발전을 대규모 월드 모델 개발에 활용하는 데 있어 도전 과제를 제기합니다. 본 연구는 상호작용적 경험을 가능하게 하는 다음 토큰 예측을 통해 시각적 관찰, 행동 및 보상을 토큰 시퀀스로 통합하는 확장 가능한 자기회귀 트랜스포머 프레임워크인 Interactive VideoGPT(iVideoGPT)를 소개합니다. iVideoGPT는 고차원 시각적 관찰을 효율적으로 이산화하는 새로운 압축적 토큰화 기술을 특징으로 합니다. 확장 가능한 아키텍처를 활용하여, 우리는 수백만 건의 인간 및 로봇 조작 궤적에 대해 iVideoGPT를 사전 학습시켜 다양한 하위 작업에 대한 상호작용적 월드 모델로 활용할 수 있는 다목적 기반을 구축했습니다. 이는 행동 조건 비디오 예측, 시각적 계획 및 모델 기반 강화 학습을 포함하며, iVideoGPT는 최신 기술과 비교하여 경쟁력 있는 성능을 달성합니다. 우리의 연구는 생성적 비디오 모델과 실용적인 모델 기반 강화 학습 응용 프로그램 간의 격차를 해소하며, 상호작용적 일반 월드 모델 개발을 진전시킵니다.
English
World models empower model-based agents to interactively explore, reason, and
plan within imagined environments for real-world decision-making. However, the
high demand for interactivity poses challenges in harnessing recent
advancements in video generative models for developing world models at scale.
This work introduces Interactive VideoGPT (iVideoGPT), a scalable
autoregressive transformer framework that integrates multimodal signals--visual
observations, actions, and rewards--into a sequence of tokens, facilitating an
interactive experience of agents via next-token prediction. iVideoGPT features
a novel compressive tokenization technique that efficiently discretizes
high-dimensional visual observations. Leveraging its scalable architecture, we
are able to pre-train iVideoGPT on millions of human and robotic manipulation
trajectories, establishing a versatile foundation that is adaptable to serve as
interactive world models for a wide range of downstream tasks. These include
action-conditioned video prediction, visual planning, and model-based
reinforcement learning, where iVideoGPT achieves competitive performance
compared with state-of-the-art methods. Our work advances the development of
interactive general world models, bridging the gap between generative video
models and practical model-based reinforcement learning applications.Summary
AI-Generated Summary