ChatPaper.aiChatPaper

Pandora: Naar een Algemeen Wereldmodel met Natuurlijke Taalacties en Videotoestanden

Pandora: Towards General World Model with Natural Language Actions and Video States

June 12, 2024
Auteurs: Jiannan Xiang, Guangyi Liu, Yi Gu, Qiyue Gao, Yuting Ning, Yuheng Zha, Zeyu Feng, Tianhua Tao, Shibo Hao, Yemin Shi, Zhengzhong Liu, Eric P. Xing, Zhiting Hu
cs.AI

Samenvatting

Wereldmodellen simuleren toekomstige toestanden van de wereld als reactie op verschillende acties. Ze faciliteren interactieve contentcreatie en bieden een basis voor gefundeerd, langetermijnredeneren. Huidige foundationmodellen voldoen niet volledig aan de capaciteiten van algemene wereldmodellen: grote taalmodelen (LLM's) worden beperkt door hun afhankelijkheid van de taalmodaliteit en hun beperkte begrip van de fysieke wereld, terwijl videomodellen geen interactieve actiecontrole hebben over de wereldsimulaties. Dit artikel zet een stap in de richting van het bouwen van een algemeen wereldmodel door Pandora te introduceren, een hybride autoregressief-diffusiemodel dat wereldtoestanden simuleert door video's te genereren en realtime controle mogelijk maakt met vrije-tekstacties. Pandora bereikt domeingeneraliteit, videoconsistentie en bestuurbaarheid door grootschalige voorafgaande training en instructieafstemming. Cruciaal is dat Pandora de kosten van training vanaf nul omzeilt door een vooraf getraind LLM (7B) en een vooraf getraind videomodel te integreren, waarbij alleen aanvullende lichtgewicht finetuning nodig is. We illustreren uitgebreide output van Pandora in diverse domeinen (binnen/buiten, natuurlijk/stedelijk, mens/robot, 2D/3D, enz.). De resultaten wijzen op een groot potentieel voor het bouwen van sterkere algemene wereldmodellen met grootschaligere training.
English
World models simulate future states of the world in response to different actions. They facilitate interactive content creation and provides a foundation for grounded, long-horizon reasoning. Current foundation models do not fully meet the capabilities of general world models: large language models (LLMs) are constrained by their reliance on language modality and their limited understanding of the physical world, while video models lack interactive action control over the world simulations. This paper makes a step towards building a general world model by introducing Pandora, a hybrid autoregressive-diffusion model that simulates world states by generating videos and allows real-time control with free-text actions. Pandora achieves domain generality, video consistency, and controllability through large-scale pretraining and instruction tuning. Crucially, Pandora bypasses the cost of training-from-scratch by integrating a pretrained LLM (7B) and a pretrained video model, requiring only additional lightweight finetuning. We illustrate extensive outputs by Pandora across diverse domains (indoor/outdoor, natural/urban, human/robot, 2D/3D, etc.). The results indicate great potential of building stronger general world models with larger-scale training.
PDF161February 8, 2026