PAN: Un Modelo Mundial para la Simulación General, Interactiva y de Largo Horizonte del Mundo
PAN: A World Model for General, Interactable, and Long-Horizon World Simulation
November 12, 2025
Autores: PAN Team, Jiannan Xiang, Yi Gu, Zihan Liu, Zeyu Feng, Qiyue Gao, Yiyan Hu, Benhao Huang, Guangyi Liu, Yichi Yang, Kun Zhou, Davit Abrahamyan, Arif Ahmad, Ganesh Bannur, Junrong Chen, Kimi Chen, Mingkai Deng, Ruobing Han, Xinqi Huang, Haoqiang Kang, Zheqi Li, Enze Ma, Hector Ren, Yashowardhan Shinde, Rohan Shingre, Ramsundar Tanikella, Kaiming Tao, Dequan Yang, Xinle Yu, Cong Zeng, Binglin Zhou, Zhengzhong Liu, Zhiting Hu, Eric P. Xing
cs.AI
Resumen
Un modelo mundial permite a un agente inteligente imaginar, predecir y razonar sobre cómo evoluciona el mundo en respuesta a sus acciones, y en consecuencia, planificar y diseñar estrategias. Si bien los modelos recientes de generación de vídeo producen secuencias visuales realistas, generalmente operan de manera prompt-a-vídeo-completo sin el control causal, la interactividad o la coherencia a largo plazo requeridos para un razonamiento con propósito. Por otro lado, los esfuerzos existentes en modelado mundial a menudo se centran en dominios restringidos (por ejemplo, dinámicas físicas, de juegos o de escenas 3D) con profundidad y capacidad de control limitadas, y luchan por generalizar en diversos entornos y formatos de interacción. En este trabajo, presentamos PAN, un modelo mundial general, interactivo y de horizonte largo que predice estados futuros del mundo mediante simulación de vídeo de alta calidad condicionada por el historial y acciones en lenguaje natural. PAN emplea la arquitectura de Predicción Latente Generativa (GLP) que combina una base de dinámica latente autorregresiva basada en un modelo de lenguaje grande (LLM), la cual fundamenta la simulación en un conocimiento textual extenso y permite el condicionamiento por acciones especificadas en lenguaje, con un decodificador de difusión de vídeo que reconstruye observaciones visuales perceptualmente detalladas y temporalmente coherentes, para lograr una unificación entre el razonamiento en el espacio latente (imaginación) y las dinámicas mundiales realizables (realidad). Entrenado con pares vídeo-acción a gran escala que abarcan diversos dominios, PAN admite simulación de dominio abierto condicionada por acciones con dinámicas coherentes a largo plazo. Experimentos exhaustivos muestran que PAN logra un rendimiento sólido en simulación mundial condicionada por acciones, pronóstico de horizonte largo y razonamiento simulado en comparación con otros generadores de vídeo y modelos mundiales, dando un paso hacia modelos mundiales generales que permiten la simulación predictiva de estados futuros del mundo para razonar y actuar.
English
A world model enables an intelligent agent to imagine, predict, and reason about how the world evolves in response to its actions, and accordingly to plan and strategize. While recent video generation models produce realistic visual sequences, they typically operate in the prompt-to-full-video manner without causal control, interactivity, or long-horizon consistency required for purposeful reasoning. Existing world modeling efforts, on the other hand, often focus on restricted domains (e.g., physical, game, or 3D-scene dynamics) with limited depth and controllability, and struggle to generalize across diverse environments and interaction formats. In this work, we introduce PAN, a general, interactable, and long-horizon world model that predicts future world states through high-quality video simulation conditioned on history and natural language actions. PAN employs the Generative Latent Prediction (GLP) architecture that combines an autoregressive latent dynamics backbone based on a large language model (LLM), which grounds simulation in extensive text-based knowledge and enables conditioning on language-specified actions, with a video diffusion decoder that reconstructs perceptually detailed and temporally coherent visual observations, to achieve a unification between latent space reasoning (imagination) and realizable world dynamics (reality). Trained on large-scale video-action pairs spanning diverse domains, PAN supports open-domain, action-conditioned simulation with coherent, long-term dynamics. Extensive experiments show that PAN achieves strong performance in action-conditioned world simulation, long-horizon forecasting, and simulative reasoning compared to other video generators and world models, taking a step towards general world models that enable predictive simulation of future world states for reasoning and acting.