Pandora: Hacia un Modelo Mundial General con Acciones en Lenguaje Natural y Estados de Video
Pandora: Towards General World Model with Natural Language Actions and Video States
June 12, 2024
Autores: Jiannan Xiang, Guangyi Liu, Yi Gu, Qiyue Gao, Yuting Ning, Yuheng Zha, Zeyu Feng, Tianhua Tao, Shibo Hao, Yemin Shi, Zhengzhong Liu, Eric P. Xing, Zhiting Hu
cs.AI
Resumen
Los modelos del mundo simulan estados futuros del mundo en respuesta a diferentes acciones. Facilitan la creación de contenido interactivo y proporcionan una base para un razonamiento fundamentado y de largo alcance. Los modelos base actuales no cumplen plenamente con las capacidades de los modelos generales del mundo: los modelos de lenguaje grandes (LLMs) están limitados por su dependencia de la modalidad del lenguaje y su comprensión limitada del mundo físico, mientras que los modelos de video carecen de control interactivo sobre las simulaciones del mundo. Este artículo da un paso hacia la construcción de un modelo general del mundo al presentar Pandora, un modelo híbrido autoregresivo-difusión que simula estados del mundo generando videos y permite un control en tiempo real con acciones de texto libre. Pandora logra generalidad de dominio, consistencia de video y controlabilidad mediante un entrenamiento previo a gran escala y ajuste por instrucciones. Crucialmente, Pandora evita el costo de entrenar desde cero al integrar un LLM preentrenado (7B) y un modelo de video preentrenado, requiriendo solo un ajuste fino adicional ligero. Ilustramos extensas salidas de Pandora en diversos dominios (interior/exterior, natural/urbano, humano/robot, 2D/3D, etc.). Los resultados indican un gran potencial para construir modelos generales del mundo más robustos con un entrenamiento a mayor escala.
English
World models simulate future states of the world in response to different
actions. They facilitate interactive content creation and provides a foundation
for grounded, long-horizon reasoning. Current foundation models do not fully
meet the capabilities of general world models: large language models (LLMs) are
constrained by their reliance on language modality and their limited
understanding of the physical world, while video models lack interactive action
control over the world simulations. This paper makes a step towards building a
general world model by introducing Pandora, a hybrid autoregressive-diffusion
model that simulates world states by generating videos and allows real-time
control with free-text actions. Pandora achieves domain generality, video
consistency, and controllability through large-scale pretraining and
instruction tuning. Crucially, Pandora bypasses the cost of
training-from-scratch by integrating a pretrained LLM (7B) and a pretrained
video model, requiring only additional lightweight finetuning. We illustrate
extensive outputs by Pandora across diverse domains (indoor/outdoor,
natural/urban, human/robot, 2D/3D, etc.). The results indicate great potential
of building stronger general world models with larger-scale training.Summary
AI-Generated Summary