ChatPaper.aiChatPaper

PAN : Un modèle mondial pour la simulation générale, interactive et à long horizon du monde

PAN: A World Model for General, Interactable, and Long-Horizon World Simulation

November 12, 2025
papers.authors: PAN Team, Jiannan Xiang, Yi Gu, Zihan Liu, Zeyu Feng, Qiyue Gao, Yiyan Hu, Benhao Huang, Guangyi Liu, Yichi Yang, Kun Zhou, Davit Abrahamyan, Arif Ahmad, Ganesh Bannur, Junrong Chen, Kimi Chen, Mingkai Deng, Ruobing Han, Xinqi Huang, Haoqiang Kang, Zheqi Li, Enze Ma, Hector Ren, Yashowardhan Shinde, Rohan Shingre, Ramsundar Tanikella, Kaiming Tao, Dequan Yang, Xinle Yu, Cong Zeng, Binglin Zhou, Zhengzhong Liu, Zhiting Hu, Eric P. Xing
cs.AI

papers.abstract

Un modèle du monde permet à un agent intelligent d'imaginer, de prédire et de raisonner sur l'évolution du monde en réponse à ses actions, et ainsi de planifier et de élaborer des stratégies. Si les modèles récents de génération vidéo produisent des séquences visuelles réalistes, ils fonctionnent généralement de manière prompt-à-vidéo complète sans contrôle causal, interactivité ou cohérence à long terme nécessaires pour un raisonnement intentionnel. Les travaux existants sur la modélisation du monde, quant à eux, se concentrent souvent sur des domaines restreints (par exemple, la dynamique physique, de jeu ou de scène 3D) avec une profondeur et une contrôlabilité limitées, et peinent à généraliser à travers divers environnements et formats d'interaction. Dans ce travail, nous présentons PAN, un modèle du monde général, interactif et à long horizon qui prédit les états futurs du monde grâce à une simulation vidéo de haute qualité conditionnée par l'historique et des actions en langage naturel. PAN emploie l'architecture de Prédiction Latente Générative (GLP) qui combine une structure de dynamique latente autorégressive basée sur un grand modèle de langage (LLM), qui ancre la simulation dans une vaste connaissance textuelle et permet le conditionnement par des actions spécifiées en langage, avec un décodeur à diffusion vidéo qui reconstruit des observations visuelles perceptuellement détaillées et temporellement cohérentes, afin d'atteindre une unification entre le raisonnement dans l'espace latent (imagination) et la dynamique réalisable du monde (réalité). Entraîné sur de vastes paires vidéo-action couvrant des domaines divers, PAN prend en charge une simulation en domaine ouvert, conditionnée par l'action, avec une dynamique cohérente et à long terme. Des expériences approfondies montrent que PAN obtient des performances solides en simulation du monde conditionnée par l'action, en prévision à long horizon et en raisonnement simulatif par rapport à d'autres générateurs vidéo et modèles du monde, faisant un pas vers des modèles généraux du monde qui permettent la simulation prédictive des états futurs du monde pour le raisonnement et l'action.
English
A world model enables an intelligent agent to imagine, predict, and reason about how the world evolves in response to its actions, and accordingly to plan and strategize. While recent video generation models produce realistic visual sequences, they typically operate in the prompt-to-full-video manner without causal control, interactivity, or long-horizon consistency required for purposeful reasoning. Existing world modeling efforts, on the other hand, often focus on restricted domains (e.g., physical, game, or 3D-scene dynamics) with limited depth and controllability, and struggle to generalize across diverse environments and interaction formats. In this work, we introduce PAN, a general, interactable, and long-horizon world model that predicts future world states through high-quality video simulation conditioned on history and natural language actions. PAN employs the Generative Latent Prediction (GLP) architecture that combines an autoregressive latent dynamics backbone based on a large language model (LLM), which grounds simulation in extensive text-based knowledge and enables conditioning on language-specified actions, with a video diffusion decoder that reconstructs perceptually detailed and temporally coherent visual observations, to achieve a unification between latent space reasoning (imagination) and realizable world dynamics (reality). Trained on large-scale video-action pairs spanning diverse domains, PAN supports open-domain, action-conditioned simulation with coherent, long-term dynamics. Extensive experiments show that PAN achieves strong performance in action-conditioned world simulation, long-horizon forecasting, and simulative reasoning compared to other video generators and world models, taking a step towards general world models that enable predictive simulation of future world states for reasoning and acting.
PDF733December 1, 2025