ChatPaper.aiChatPaper

PAN: Un Modello Mondiale per la Simulazione Generale, Interagibile e a Lungo Orizzonte di Mondi

PAN: A World Model for General, Interactable, and Long-Horizon World Simulation

November 12, 2025
Autori: PAN Team, Jiannan Xiang, Yi Gu, Zihan Liu, Zeyu Feng, Qiyue Gao, Yiyan Hu, Benhao Huang, Guangyi Liu, Yichi Yang, Kun Zhou, Davit Abrahamyan, Arif Ahmad, Ganesh Bannur, Junrong Chen, Kimi Chen, Mingkai Deng, Ruobing Han, Xinqi Huang, Haoqiang Kang, Zheqi Li, Enze Ma, Hector Ren, Yashowardhan Shinde, Rohan Shingre, Ramsundar Tanikella, Kaiming Tao, Dequan Yang, Xinle Yu, Cong Zeng, Binglin Zhou, Zhengzhong Liu, Zhiting Hu, Eric P. Xing
cs.AI

Abstract

Un modello mondiale consente a un agente intelligente di immaginare, prevedere e ragionare su come il mondo si evolve in risposta alle sue azioni, e di conseguenza pianificare e definire strategie. Sebbene i recenti modelli di generazione video producano sequenze visive realistiche, tipicamente operano in modalità prompt-to-full-video senza il controllo causale, l'interattività o la coerenza a lungo termine necessari per un ragionamento finalizzato. D'altro canto, gli attuali sforzi di modellazione mondiale si concentrano spesso su domini ristretti (ad es. dinamiche fisiche, di gioco o di scene 3D) con profondità e controllabilità limitate, e faticano a generalizzare attraverso ambienti e formati di interazione diversi. In questo lavoro, introduciamo PAN, un modello mondiale generale, interagibile e a lungo orizzonte che prevede gli stati futuri del mondo attraverso una simulazione video di alta qualità condizionata dalla cronologia storica e da azioni in linguaggio naturale. PAN impiega l'architettura Generative Latent Prediction (GLP) che combina un backbone di dinamica latente autoregressiva basato su un large language model (LLM), che ancorala simulazione a una vasta conoscenza testuale e permette il condizionamento su azioni specificate linguisticamente, con un decoder di diffusione video che ricostruisce osservazioni visive percettivamente dettagliate e temporalmente coerenti, per realizzare un'unificazione tra il ragionamento nello spazio latente (immaginazione) e le dinamiche mondiali realizzabili (realtà). Addestrato su coppie video-azione su larga scala che abbracciano domini diversi, PAN supporta una simulazione open-domain, condizionata all'azione, con dinamiche coerenti e a lungo termine. Esperimenti estensivi dimostrano che PAN raggiunge prestazioni solide nella simulazione mondiale condizionata all'azione, nella previsione a lungo orizzonte e nel ragionamento simulativo rispetto ad altri generatori video e modelli mondiali, compiendo un passo verso modelli mondiali generali che abilitano la simulazione predittiva degli stati futuri del mondo per il ragionamento e l'azione.
English
A world model enables an intelligent agent to imagine, predict, and reason about how the world evolves in response to its actions, and accordingly to plan and strategize. While recent video generation models produce realistic visual sequences, they typically operate in the prompt-to-full-video manner without causal control, interactivity, or long-horizon consistency required for purposeful reasoning. Existing world modeling efforts, on the other hand, often focus on restricted domains (e.g., physical, game, or 3D-scene dynamics) with limited depth and controllability, and struggle to generalize across diverse environments and interaction formats. In this work, we introduce PAN, a general, interactable, and long-horizon world model that predicts future world states through high-quality video simulation conditioned on history and natural language actions. PAN employs the Generative Latent Prediction (GLP) architecture that combines an autoregressive latent dynamics backbone based on a large language model (LLM), which grounds simulation in extensive text-based knowledge and enables conditioning on language-specified actions, with a video diffusion decoder that reconstructs perceptually detailed and temporally coherent visual observations, to achieve a unification between latent space reasoning (imagination) and realizable world dynamics (reality). Trained on large-scale video-action pairs spanning diverse domains, PAN supports open-domain, action-conditioned simulation with coherent, long-term dynamics. Extensive experiments show that PAN achieves strong performance in action-conditioned world simulation, long-horizon forecasting, and simulative reasoning compared to other video generators and world models, taking a step towards general world models that enable predictive simulation of future world states for reasoning and acting.
PDF733December 1, 2025