PAN: Um Modelo de Mundo para Simulação Geral, Interativa e de Longo Horizonte

Resumo

Um modelo mundial permite que um agente inteligente imagine, preveja e raciocine sobre como o mundo evolui em resposta às suas ações, e, consequentemente, planeje e estrategize. Embora os modelos recentes de geração de vídeo produzam sequências visuais realistas, eles normalmente operam de maneira direta (do prompt ao vídeo completo) sem o controle causal, a interactividade ou a consistência de longo horizonte necessários para um raciocínio com propósito. Por outro lado, os esforços existentes de modelagem mundial frequentemente concentram-se em domínios restritos (por exemplo, dinâmicas físicas, de jogos ou de cenas 3D) com profundidade e controlabilidade limitadas, e lutam para generalizar entre diversos ambientes e formatos de interação. Neste trabalho, introduzimos o PAN, um modelo mundial geral, interativo e de longo horizonte que prevê estados futuros do mundo através de simulação de vídeo de alta qualidade condicionada pela história e por ações em linguagem natural. O PAN emprega a arquitetura de Predição Latente Generativa (Generative Latent Prediction - GLP) que combina uma estrutura dinâmica latente autorregressiva baseada num modelo de linguagem de grande escala (LLM) – que ancora a simulação em conhecimento textual extenso e permite o condicionamento por ações especificadas linguisticamente – com um descodificador de difusão de vídeo que reconstrói observações visuais perceptualmente detalhadas e temporalmente coerentes, para alcançar uma unificação entre o raciocínio no espaço latente (imaginação) e as dinâmicas mundiais realizáveis (realidade). Treinado em pares vídeo-ação de grande escala abrangendo domínios diversos, o PAN suporta simulação de domínio aberto, condicionada por ações, com dinâmicas coerentes e de longo prazo. Extensos experimentos mostram que o PAN alcança um desempenho sólido em simulação mundial condicionada por ações, previsão de longo horizonte e raciocínio simulativo em comparação com outros geradores de vídeo e modelos mundiais, dando um passo em direção a modelos mundiais gerais que permitem a simulação preditiva de estados futuros do mundo para raciocinar e agir.

English

A world model enables an intelligent agent to imagine, predict, and reason about how the world evolves in response to its actions, and accordingly to plan and strategize. While recent video generation models produce realistic visual sequences, they typically operate in the prompt-to-full-video manner without causal control, interactivity, or long-horizon consistency required for purposeful reasoning. Existing world modeling efforts, on the other hand, often focus on restricted domains (e.g., physical, game, or 3D-scene dynamics) with limited depth and controllability, and struggle to generalize across diverse environments and interaction formats. In this work, we introduce PAN, a general, interactable, and long-horizon world model that predicts future world states through high-quality video simulation conditioned on history and natural language actions. PAN employs the Generative Latent Prediction (GLP) architecture that combines an autoregressive latent dynamics backbone based on a large language model (LLM), which grounds simulation in extensive text-based knowledge and enables conditioning on language-specified actions, with a video diffusion decoder that reconstructs perceptually detailed and temporally coherent visual observations, to achieve a unification between latent space reasoning (imagination) and realizable world dynamics (reality). Trained on large-scale video-action pairs spanning diverse domains, PAN supports open-domain, action-conditioned simulation with coherent, long-term dynamics. Extensive experiments show that PAN achieves strong performance in action-conditioned world simulation, long-horizon forecasting, and simulative reasoning compared to other video generators and world models, taking a step towards general world models that enable predictive simulation of future world states for reasoning and acting.