ChatPaper.aiChatPaper

PAN: Een Wereldmodel voor Algemene, Interactieve en Langetermijnsimulatie van Werelden

PAN: A World Model for General, Interactable, and Long-Horizon World Simulation

November 12, 2025
Auteurs: PAN Team, Jiannan Xiang, Yi Gu, Zihan Liu, Zeyu Feng, Qiyue Gao, Yiyan Hu, Benhao Huang, Guangyi Liu, Yichi Yang, Kun Zhou, Davit Abrahamyan, Arif Ahmad, Ganesh Bannur, Junrong Chen, Kimi Chen, Mingkai Deng, Ruobing Han, Xinqi Huang, Haoqiang Kang, Zheqi Li, Enze Ma, Hector Ren, Yashowardhan Shinde, Rohan Shingre, Ramsundar Tanikella, Kaiming Tao, Dequan Yang, Xinle Yu, Cong Zeng, Binglin Zhou, Zhengzhong Liu, Zhiting Hu, Eric P. Xing
cs.AI

Samenvatting

Een wereldmodel stelt een intelligente agent in staat zich voor te stellen, te voorspellen en te redeneren over hoe de wereld evolueert als reactie op zijn acties, en dienovereenkomstig te plannen en strategieën te ontwikkelen. Hoewel recente videogeneratiemodellen realistische visuele sequenties produceren, werken ze doorgaans op een prompt-naar-volledige-video-manier zonder de causale controle, interactiviteit of consistentie op lange termijn die nodig is voor doelgericht redeneren. Bestaande inspanningen voor wereldmodellering richten zich daarentegen vaak op beperkte domeinen (bijv. fysieke, game- of 3D-scène-dynamiek) met beperkte diepgang en bestuurbaarheid, en hebben moeite om te generaliseren over diverse omgevingen en interactieformaten. In dit werk introduceren we PAN, een algemeen, interactief wereldmodel voor de lange termijn dat toekomstige wereldtoestanden voorspelt via hoogwaardige videosimulatie, geconditioneerd op historie en acties in natuurlijke taal. PAN gebruikt de Generative Latent Prediction (GLP)-architectuur die een autoregressieve latente dynamiek-backbone combineert, gebaseerd op een groot taalmodel (LLM) – wat simulatie verankert in uitgebreide op tekst gebaseerde kennis en conditionering op taalgespecificeerde acties mogelijk maakt – met een videodiffusie-decoder die perceptueel gedetailleerde en temporeel coherente visuele observaties reconstrueert, om een eenwording te bereiken tussen redeneren in de latente ruimte (verbeelding) en realiseerbare werelddynamiek (realiteit). Getraind op grootschalige video-actieparen uit diverse domeinen, ondersteunt PAN open-domein, actie-geconditioneerde simulatie met coherente, langetermijndynamiek. Uitgebreide experimenten tonen aan dat PAN sterke prestaties levert in actie-geconditioneerde wereldsimulatie, voorspelling op lange termijn en simulatief redeneren in vergelijking met andere videogeneratoren en wereldmodellen, waarmee een stap wordt gezet naar algemene wereldmodellen die voorspellende simulatie van toekomstige wereldtoestanden mogelijk maken voor redeneren en handelen.
English
A world model enables an intelligent agent to imagine, predict, and reason about how the world evolves in response to its actions, and accordingly to plan and strategize. While recent video generation models produce realistic visual sequences, they typically operate in the prompt-to-full-video manner without causal control, interactivity, or long-horizon consistency required for purposeful reasoning. Existing world modeling efforts, on the other hand, often focus on restricted domains (e.g., physical, game, or 3D-scene dynamics) with limited depth and controllability, and struggle to generalize across diverse environments and interaction formats. In this work, we introduce PAN, a general, interactable, and long-horizon world model that predicts future world states through high-quality video simulation conditioned on history and natural language actions. PAN employs the Generative Latent Prediction (GLP) architecture that combines an autoregressive latent dynamics backbone based on a large language model (LLM), which grounds simulation in extensive text-based knowledge and enables conditioning on language-specified actions, with a video diffusion decoder that reconstructs perceptually detailed and temporally coherent visual observations, to achieve a unification between latent space reasoning (imagination) and realizable world dynamics (reality). Trained on large-scale video-action pairs spanning diverse domains, PAN supports open-domain, action-conditioned simulation with coherent, long-term dynamics. Extensive experiments show that PAN achieves strong performance in action-conditioned world simulation, long-horizon forecasting, and simulative reasoning compared to other video generators and world models, taking a step towards general world models that enable predictive simulation of future world states for reasoning and acting.
PDF733December 1, 2025