Pandora : Vers un modèle mondial général avec actions en langage naturel et états vidéo

Résumé

Les modèles du monde simulent les états futurs du monde en réponse à différentes actions. Ils facilitent la création de contenu interactif et fournissent une base pour un raisonnement ancré et à long terme. Les modèles de base actuels ne répondent pas pleinement aux capacités des modèles généraux du monde : les grands modèles de langage (LLM) sont limités par leur dépendance à la modalité linguistique et leur compréhension restreinte du monde physique, tandis que les modèles vidéo manquent de contrôle interactif sur les simulations du monde. Cet article fait un pas vers la construction d'un modèle général du monde en introduisant Pandora, un modèle hybride autoregressif-diffusif qui simule les états du monde en générant des vidéos et permet un contrôle en temps réel avec des actions en texte libre. Pandora atteint la généralité de domaine, la cohérence vidéo et la contrôlabilité grâce à un pré-entraînement à grande échelle et un ajustement par instruction. De manière cruciale, Pandora contourne le coût d'un entraînement à partir de zéro en intégrant un LLM pré-entraîné (7B) et un modèle vidéo pré-entraîné, ne nécessitant qu'un ajustement fin léger supplémentaire. Nous illustrons les vastes sorties de Pandora à travers divers domaines (intérieur/extérieur, naturel/urbain, humain/robot, 2D/3D, etc.). Les résultats indiquent un grand potentiel pour construire des modèles généraux du monde plus performants avec un entraînement à plus grande échelle.

English

World models simulate future states of the world in response to different actions. They facilitate interactive content creation and provides a foundation for grounded, long-horizon reasoning. Current foundation models do not fully meet the capabilities of general world models: large language models (LLMs) are constrained by their reliance on language modality and their limited understanding of the physical world, while video models lack interactive action control over the world simulations. This paper makes a step towards building a general world model by introducing Pandora, a hybrid autoregressive-diffusion model that simulates world states by generating videos and allows real-time control with free-text actions. Pandora achieves domain generality, video consistency, and controllability through large-scale pretraining and instruction tuning. Crucially, Pandora bypasses the cost of training-from-scratch by integrating a pretrained LLM (7B) and a pretrained video model, requiring only additional lightweight finetuning. We illustrate extensive outputs by Pandora across diverse domains (indoor/outdoor, natural/urban, human/robot, 2D/3D, etc.). The results indicate great potential of building stronger general world models with larger-scale training.

Pandora : Vers un modèle mondial général avec actions en langage naturel et états vidéo

Pandora: Towards General World Model with Natural Language Actions and Video States

Résumé

Support