판도라: 자연어 액션과 비디오 상태를 활용한 범용 세계 모델 구축
Pandora: Towards General World Model with Natural Language Actions and Video States
June 12, 2024
저자: Jiannan Xiang, Guangyi Liu, Yi Gu, Qiyue Gao, Yuting Ning, Yuheng Zha, Zeyu Feng, Tianhua Tao, Shibo Hao, Yemin Shi, Zhengzhong Liu, Eric P. Xing, Zhiting Hu
cs.AI
초록
월드 모델(World Model)은 다양한 행동에 대한 응답으로 세계의 미래 상태를 시뮬레이션합니다. 이는 상호작용적인 콘텐츠 생성에 기여하며, 장기적인 추론을 위한 기반을 제공합니다. 현재의 기초 모델(Foundation Model)은 일반적인 월드 모델의 능력을 완전히 충족시키지 못합니다: 대형 언어 모델(LLM)은 언어 모달리티에 대한 의존성과 물리적 세계에 대한 제한된 이해로 인해 제약을 받으며, 비디오 모델은 세계 시뮬레이션에 대한 상호작용적 행동 제어가 부족합니다. 본 논문은 Pandora라는 하이브리드 자기회귀-확산 모델을 소개함으로써 일반적인 월드 모델 구축을 위한 한 걸음을 내딛습니다. Pandora는 비디오를 생성하여 세계 상태를 시뮬레이션하고, 자유 텍스트 행동을 통해 실시간 제어를 가능하게 합니다. Pandora는 대규모 사전 학습과 지시 튜닝을 통해 도메인 일반성, 비디오 일관성, 제어 가능성을 달성합니다. 특히, Pandora는 사전 학습된 LLM(7B)과 사전 학습된 비디오 모델을 통합함으로써 처음부터 학습하는 비용을 우회하며, 추가적인 경량 파인튜닝만 필요로 합니다. 우리는 Pandora가 다양한 도메인(실내/실외, 자연/도시, 인간/로봇, 2D/3D 등)에서 생성한 광범위한 출력을 보여줍니다. 결과는 더 큰 규모의 학습을 통해 더 강력한 일반 월드 모델을 구축할 수 있는 잠재력을 시사합니다.
English
World models simulate future states of the world in response to different
actions. They facilitate interactive content creation and provides a foundation
for grounded, long-horizon reasoning. Current foundation models do not fully
meet the capabilities of general world models: large language models (LLMs) are
constrained by their reliance on language modality and their limited
understanding of the physical world, while video models lack interactive action
control over the world simulations. This paper makes a step towards building a
general world model by introducing Pandora, a hybrid autoregressive-diffusion
model that simulates world states by generating videos and allows real-time
control with free-text actions. Pandora achieves domain generality, video
consistency, and controllability through large-scale pretraining and
instruction tuning. Crucially, Pandora bypasses the cost of
training-from-scratch by integrating a pretrained LLM (7B) and a pretrained
video model, requiring only additional lightweight finetuning. We illustrate
extensive outputs by Pandora across diverse domains (indoor/outdoor,
natural/urban, human/robot, 2D/3D, etc.). The results indicate great potential
of building stronger general world models with larger-scale training.Summary
AI-Generated Summary