Pandora : Vers un modèle mondial général avec actions en langage naturel et états vidéo
Pandora: Towards General World Model with Natural Language Actions and Video States
June 12, 2024
Auteurs: Jiannan Xiang, Guangyi Liu, Yi Gu, Qiyue Gao, Yuting Ning, Yuheng Zha, Zeyu Feng, Tianhua Tao, Shibo Hao, Yemin Shi, Zhengzhong Liu, Eric P. Xing, Zhiting Hu
cs.AI
Résumé
Les modèles du monde simulent les états futurs du monde en réponse à différentes actions. Ils facilitent la création de contenu interactif et fournissent une base pour un raisonnement ancré et à long terme. Les modèles de base actuels ne répondent pas pleinement aux capacités des modèles généraux du monde : les grands modèles de langage (LLM) sont limités par leur dépendance à la modalité linguistique et leur compréhension restreinte du monde physique, tandis que les modèles vidéo manquent de contrôle interactif sur les simulations du monde. Cet article fait un pas vers la construction d'un modèle général du monde en introduisant Pandora, un modèle hybride autoregressif-diffusif qui simule les états du monde en générant des vidéos et permet un contrôle en temps réel avec des actions en texte libre. Pandora atteint la généralité de domaine, la cohérence vidéo et la contrôlabilité grâce à un pré-entraînement à grande échelle et un ajustement par instruction. De manière cruciale, Pandora contourne le coût d'un entraînement à partir de zéro en intégrant un LLM pré-entraîné (7B) et un modèle vidéo pré-entraîné, ne nécessitant qu'un ajustement fin léger supplémentaire. Nous illustrons les vastes sorties de Pandora à travers divers domaines (intérieur/extérieur, naturel/urbain, humain/robot, 2D/3D, etc.). Les résultats indiquent un grand potentiel pour construire des modèles généraux du monde plus performants avec un entraînement à plus grande échelle.
English
World models simulate future states of the world in response to different
actions. They facilitate interactive content creation and provides a foundation
for grounded, long-horizon reasoning. Current foundation models do not fully
meet the capabilities of general world models: large language models (LLMs) are
constrained by their reliance on language modality and their limited
understanding of the physical world, while video models lack interactive action
control over the world simulations. This paper makes a step towards building a
general world model by introducing Pandora, a hybrid autoregressive-diffusion
model that simulates world states by generating videos and allows real-time
control with free-text actions. Pandora achieves domain generality, video
consistency, and controllability through large-scale pretraining and
instruction tuning. Crucially, Pandora bypasses the cost of
training-from-scratch by integrating a pretrained LLM (7B) and a pretrained
video model, requiring only additional lightweight finetuning. We illustrate
extensive outputs by Pandora across diverse domains (indoor/outdoor,
natural/urban, human/robot, 2D/3D, etc.). The results indicate great potential
of building stronger general world models with larger-scale training.Summary
AI-Generated Summary