PAN: Ein Weltmodell für allgemeine, interaktive und langfristige Weltsimulation
PAN: A World Model for General, Interactable, and Long-Horizon World Simulation
November 12, 2025
papers.authors: PAN Team, Jiannan Xiang, Yi Gu, Zihan Liu, Zeyu Feng, Qiyue Gao, Yiyan Hu, Benhao Huang, Guangyi Liu, Yichi Yang, Kun Zhou, Davit Abrahamyan, Arif Ahmad, Ganesh Bannur, Junrong Chen, Kimi Chen, Mingkai Deng, Ruobing Han, Xinqi Huang, Haoqiang Kang, Zheqi Li, Enze Ma, Hector Ren, Yashowardhan Shinde, Rohan Shingre, Ramsundar Tanikella, Kaiming Tao, Dequan Yang, Xinle Yu, Cong Zeng, Binglin Zhou, Zhengzhong Liu, Zhiting Hu, Eric P. Xing
cs.AI
papers.abstract
Ein Weltmodell ermöglicht es einem intelligenten Agenten, sich vorzustellen, vorherzusagen und darüber zu schlussfolgern, wie sich die Welt als Reaktion auf seine Handlungen entwickelt, und dementsprechend zu planen und zu strategisieren. Während aktuelle Videogenerierungsmodelle realistische Bildsequenzen erzeugen, arbeiten sie typischerweise im Prompt-zu-Vollvideo-Modus ohne kausale Steuerung, Interaktivität oder langfristige Konsistenz, die für zielgerichtetes Schlussfolgern erforderlich sind. Bestehende Ansätze zur Weltmodellierung konzentrieren sich hingegen oft auf eingeschränkte Domänen (z.B. physikalische, Spiel- oder 3D-Szenen-Dynamiken) mit begrenzter Tiefe und Steuerbarkeit und haben Schwierigkeiten, sich über verschiedene Umgebungen und Interaktionsformate hinweg zu verallgemeinern. In dieser Arbeit stellen wir PAN vor, ein allgemeines, interagierbares und langfristiges Weltmodell, das zukünftige Weltzustände durch hochwertige Videosimulation vorhersagt, die auf Verlauf und natürlichen Sprachhandlungen konditioniert ist. PAN verwendet die Generative Latent Prediction (GLP)-Architektur, die ein autoregressives latentes Dynamik-Rückgrat auf Basis eines Large Language Models (LLM) mit einem Video-Diffusion-Decoder kombiniert. Das LLM-basierte Rückgrat verankert die Simulation in umfangreichem textbasiertem Wissen und ermöglicht die Konditionierung auf sprachlich spezifizierte Handlungen, während der Decoder perceptuell detailreiche und zeitlich kohärente visuelle Beobachtungen rekonstruiert. Dies führt zu einer Vereinheitlichung von latentem Raum-Schlussfolgern (Imagination) und realisierbarer Weltdynamik (Realität). Trainiert auf großskaligen Video-Handlungs-Paaren aus verschiedenen Domänen, unterstützt PAN offene, handlungskonditionierte Simulation mit kohärenter, langfristiger Dynamik. Umfangreiche Experimente zeigen, dass PAN im Vergleich zu anderen Videogeneratoren und Weltmodellen eine hohe Leistung in handlungskonditionierter Weltsimulation, langfristiger Vorhersage und simulativer Reasoningfähigkeit erreicht – ein Schritt hin zu allgemeinen Weltmodellen, die prädiktive Simulationen zukünftiger Weltzustände zum Schlussfolgern und Handeln ermöglichen.
English
A world model enables an intelligent agent to imagine, predict, and reason about how the world evolves in response to its actions, and accordingly to plan and strategize. While recent video generation models produce realistic visual sequences, they typically operate in the prompt-to-full-video manner without causal control, interactivity, or long-horizon consistency required for purposeful reasoning. Existing world modeling efforts, on the other hand, often focus on restricted domains (e.g., physical, game, or 3D-scene dynamics) with limited depth and controllability, and struggle to generalize across diverse environments and interaction formats. In this work, we introduce PAN, a general, interactable, and long-horizon world model that predicts future world states through high-quality video simulation conditioned on history and natural language actions. PAN employs the Generative Latent Prediction (GLP) architecture that combines an autoregressive latent dynamics backbone based on a large language model (LLM), which grounds simulation in extensive text-based knowledge and enables conditioning on language-specified actions, with a video diffusion decoder that reconstructs perceptually detailed and temporally coherent visual observations, to achieve a unification between latent space reasoning (imagination) and realizable world dynamics (reality). Trained on large-scale video-action pairs spanning diverse domains, PAN supports open-domain, action-conditioned simulation with coherent, long-term dynamics. Extensive experiments show that PAN achieves strong performance in action-conditioned world simulation, long-horizon forecasting, and simulative reasoning compared to other video generators and world models, taking a step towards general world models that enable predictive simulation of future world states for reasoning and acting.