Pandora: Rumo a um Modelo de Mundo Geral com Ações em Linguagem Natural e Estados de Vídeo

Resumo

Modelos de mundo simulam estados futuros do mundo em resposta a diferentes ações. Eles facilitam a criação de conteúdo interativo e fornecem uma base para raciocínios fundamentados e de longo prazo. Os modelos de base atuais não atendem plenamente às capacidades dos modelos de mundo gerais: os grandes modelos de linguagem (LLMs) são limitados por sua dependência da modalidade linguística e por sua compreensão limitada do mundo físico, enquanto os modelos de vídeo carecem de controle interativo sobre as simulações do mundo. Este artigo dá um passo em direção à construção de um modelo de mundo geral ao introduzir Pandora, um modelo híbrido autoregressivo-difusivo que simula estados do mundo gerando vídeos e permite controle em tempo real com ações em texto livre. Pandora alcança generalidade de domínio, consistência de vídeo e controlabilidade por meio de pré-treinamento em larga escala e ajuste por instrução. Crucialmente, Pandora contorna o custo do treinamento a partir do zero ao integrar um LLM pré-treinado (7B) e um modelo de vídeo pré-treinado, exigindo apenas ajustes leves adicionais. Ilustramos extensas saídas de Pandora em diversos domínios (interior/exterior, natural/urbano, humano/robô, 2D/3D, etc.). Os resultados indicam um grande potencial para a construção de modelos de mundo gerais mais robustos com treinamento em escala maior.

English

World models simulate future states of the world in response to different actions. They facilitate interactive content creation and provides a foundation for grounded, long-horizon reasoning. Current foundation models do not fully meet the capabilities of general world models: large language models (LLMs) are constrained by their reliance on language modality and their limited understanding of the physical world, while video models lack interactive action control over the world simulations. This paper makes a step towards building a general world model by introducing Pandora, a hybrid autoregressive-diffusion model that simulates world states by generating videos and allows real-time control with free-text actions. Pandora achieves domain generality, video consistency, and controllability through large-scale pretraining and instruction tuning. Crucially, Pandora bypasses the cost of training-from-scratch by integrating a pretrained LLM (7B) and a pretrained video model, requiring only additional lightweight finetuning. We illustrate extensive outputs by Pandora across diverse domains (indoor/outdoor, natural/urban, human/robot, 2D/3D, etc.). The results indicate great potential of building stronger general world models with larger-scale training.

Pandora: Rumo a um Modelo de Mundo Geral com Ações em Linguagem Natural e Estados de Vídeo

Pandora: Towards General World Model with Natural Language Actions and Video States

Resumo

Support