ChatPaper.aiChatPaper

PAN:汎用的、対話可能、長期的な世界シミュレーションのための世界モデル

PAN: A World Model for General, Interactable, and Long-Horizon World Simulation

November 12, 2025
著者: PAN Team, Jiannan Xiang, Yi Gu, Zihan Liu, Zeyu Feng, Qiyue Gao, Yiyan Hu, Benhao Huang, Guangyi Liu, Yichi Yang, Kun Zhou, Davit Abrahamyan, Arif Ahmad, Ganesh Bannur, Junrong Chen, Kimi Chen, Mingkai Deng, Ruobing Han, Xinqi Huang, Haoqiang Kang, Zheqi Li, Enze Ma, Hector Ren, Yashowardhan Shinde, Rohan Shingre, Ramsundar Tanikella, Kaiming Tao, Dequan Yang, Xinle Yu, Cong Zeng, Binglin Zhou, Zhengzhong Liu, Zhiting Hu, Eric P. Xing
cs.AI

要旨

世界モデルは、知的エージェントが自身の行動に対する世界の変化を想像・予測・推論し、それに基づいて計画と戦略を立てることを可能にする。近年の映像生成モデルは現実的な視覚シーケンスを生成するが、多くはプロンプトから完全な映像を生成する方式であり、意図的な推論に必要な因果的制御性、対話性、長期的整合性を欠いている。一方、既存の世界モデリングの取り組みは、物理現象やゲーム、3Dシーン動力学など限定的な領域に焦点を当てることが多く、深度と制御性に制約があり、多様な環境や相互作用形式への汎化が困難である。本研究では、履歴と自然言語で記述された行動を条件として、高品質な映像シミュレーションを通じて未来の世界状態を予測する、汎用的・対話的・長期的な世界モデルPANを提案する。PANはGenerative Latent Prediction(GLP)アーキテクチャを採用し、大規模言語モデル(LLM)に基づく自己回帰的潜在動力学バックボーン(広範なテキストベースの知識に基づくシミュレーションを実現し、言語指定された行動の条件付けを可能にする)と、知覚的に詳細かつ時間的に一貫した視覚観測を再構築する映像拡散デコーダを組み合わせることで、潜在空間推論(想像)と実現可能な世界動力学(現実)の統合を達成する。多様な領域にわたる大規模な映像-行動ペアで学習されたPANは、一貫した長期動力学を伴う開放領域の行動条件付きシミュレーションをサポートする。大規模な実験により、PANは他の映像生成モデルや世界モデルと比較して、行動条件付き世界シミュレーション、長期予測、シミュレーション推論において優れた性能を達成し、推論と行動のための未来世界状態の予測的シミュレーションを可能とする汎用世界モデルへ向けた一歩を踏み出すことを示す。
English
A world model enables an intelligent agent to imagine, predict, and reason about how the world evolves in response to its actions, and accordingly to plan and strategize. While recent video generation models produce realistic visual sequences, they typically operate in the prompt-to-full-video manner without causal control, interactivity, or long-horizon consistency required for purposeful reasoning. Existing world modeling efforts, on the other hand, often focus on restricted domains (e.g., physical, game, or 3D-scene dynamics) with limited depth and controllability, and struggle to generalize across diverse environments and interaction formats. In this work, we introduce PAN, a general, interactable, and long-horizon world model that predicts future world states through high-quality video simulation conditioned on history and natural language actions. PAN employs the Generative Latent Prediction (GLP) architecture that combines an autoregressive latent dynamics backbone based on a large language model (LLM), which grounds simulation in extensive text-based knowledge and enables conditioning on language-specified actions, with a video diffusion decoder that reconstructs perceptually detailed and temporally coherent visual observations, to achieve a unification between latent space reasoning (imagination) and realizable world dynamics (reality). Trained on large-scale video-action pairs spanning diverse domains, PAN supports open-domain, action-conditioned simulation with coherent, long-term dynamics. Extensive experiments show that PAN achieves strong performance in action-conditioned world simulation, long-horizon forecasting, and simulative reasoning compared to other video generators and world models, taking a step towards general world models that enable predictive simulation of future world states for reasoning and acting.
PDF733December 1, 2025