ChatPaper.aiChatPaper

Pandora: Verso un Modello Generale del Mondo con Azioni in Linguaggio Naturale e Stati Video

Pandora: Towards General World Model with Natural Language Actions and Video States

June 12, 2024
Autori: Jiannan Xiang, Guangyi Liu, Yi Gu, Qiyue Gao, Yuting Ning, Yuheng Zha, Zeyu Feng, Tianhua Tao, Shibo Hao, Yemin Shi, Zhengzhong Liu, Eric P. Xing, Zhiting Hu
cs.AI

Abstract

I modelli del mondo simulano stati futuri del mondo in risposta a diverse azioni. Facilitano la creazione di contenuti interattivi e forniscono una base per un ragionamento fondato e a lungo termine. Gli attuali modelli di base non soddisfano pienamente le capacità dei modelli del mondo generali: i grandi modelli linguistici (LLM) sono limitati dalla loro dipendenza dalla modalità linguistica e dalla loro comprensione limitata del mondo fisico, mentre i modelli video mancano di un controllo interattivo delle azioni sulle simulazioni del mondo. Questo articolo compie un passo verso la costruzione di un modello del mondo generale introducendo Pandora, un modello ibrido autoregressivo-diffusivo che simula stati del mondo generando video e consente un controllo in tempo reale con azioni in testo libero. Pandora raggiunge la generalità di dominio, la coerenza video e la controllabilità attraverso un preaddestramento su larga scala e una messa a punto basata su istruzioni. Fondamentalmente, Pandora aggira il costo dell'addestramento da zero integrando un LLM preaddestrato (7B) e un modello video preaddestrato, richiedendo solo un'ulteriore messa a punto leggera. Illustriamo ampi output di Pandora in diversi domini (interno/esterno, naturale/urbano, umano/robot, 2D/3D, ecc.). I risultati indicano un grande potenziale per costruire modelli del mondo generali più robusti con un addestramento su scala più ampia.
English
World models simulate future states of the world in response to different actions. They facilitate interactive content creation and provides a foundation for grounded, long-horizon reasoning. Current foundation models do not fully meet the capabilities of general world models: large language models (LLMs) are constrained by their reliance on language modality and their limited understanding of the physical world, while video models lack interactive action control over the world simulations. This paper makes a step towards building a general world model by introducing Pandora, a hybrid autoregressive-diffusion model that simulates world states by generating videos and allows real-time control with free-text actions. Pandora achieves domain generality, video consistency, and controllability through large-scale pretraining and instruction tuning. Crucially, Pandora bypasses the cost of training-from-scratch by integrating a pretrained LLM (7B) and a pretrained video model, requiring only additional lightweight finetuning. We illustrate extensive outputs by Pandora across diverse domains (indoor/outdoor, natural/urban, human/robot, 2D/3D, etc.). The results indicate great potential of building stronger general world models with larger-scale training.
PDF161February 8, 2026