パンドラ:自然言語アクションとビデオ状態を用いた汎用世界モデルに向けて
Pandora: Towards General World Model with Natural Language Actions and Video States
June 12, 2024
著者: Jiannan Xiang, Guangyi Liu, Yi Gu, Qiyue Gao, Yuting Ning, Yuheng Zha, Zeyu Feng, Tianhua Tao, Shibo Hao, Yemin Shi, Zhengzhong Liu, Eric P. Xing, Zhiting Hu
cs.AI
要旨
ワールドモデルは、異なるアクションに対する世界の未来の状態をシミュレートします。これにより、インタラクティブなコンテンツ作成が容易になり、現実に基づいた長期的な推論の基盤が提供されます。現在の基盤モデルは、一般的なワールドモデルの能力を完全には満たしていません。大規模言語モデル(LLM)は、言語モダリティへの依存と物理世界に対する理解の限界によって制約されており、ビデオモデルは世界シミュレーションに対するインタラクティブなアクション制御を欠いています。本論文は、一般的なワールドモデルの構築に向けて一歩を進め、Pandoraというハイブリッド自己回帰-拡散モデルを紹介します。Pandoraはビデオを生成して世界の状態をシミュレートし、自由テキストのアクションによるリアルタイム制御を可能にします。Pandoraは、大規模な事前学習と指示チューニングを通じて、ドメイン汎用性、ビデオの一貫性、制御性を実現します。重要な点として、Pandoraは、事前学習済みのLLM(7B)とビデオモデルを統合することで、ゼロからの学習コストを回避し、追加の軽量なファインチューニングのみを必要とします。Pandoraによる多様なドメイン(屋内/屋外、自然/都市、人間/ロボット、2D/3Dなど)にわたる広範な出力を示します。結果は、より大規模なトレーニングによる強力な一般的ワールドモデルの構築の大きな可能性を示しています。
English
World models simulate future states of the world in response to different
actions. They facilitate interactive content creation and provides a foundation
for grounded, long-horizon reasoning. Current foundation models do not fully
meet the capabilities of general world models: large language models (LLMs) are
constrained by their reliance on language modality and their limited
understanding of the physical world, while video models lack interactive action
control over the world simulations. This paper makes a step towards building a
general world model by introducing Pandora, a hybrid autoregressive-diffusion
model that simulates world states by generating videos and allows real-time
control with free-text actions. Pandora achieves domain generality, video
consistency, and controllability through large-scale pretraining and
instruction tuning. Crucially, Pandora bypasses the cost of
training-from-scratch by integrating a pretrained LLM (7B) and a pretrained
video model, requiring only additional lightweight finetuning. We illustrate
extensive outputs by Pandora across diverse domains (indoor/outdoor,
natural/urban, human/robot, 2D/3D, etc.). The results indicate great potential
of building stronger general world models with larger-scale training.Summary
AI-Generated Summary