PAN: 일반적, 상호작용 가능, 장기적 세계 시뮬레이션을 위한 세계 모델
PAN: A World Model for General, Interactable, and Long-Horizon World Simulation
November 12, 2025
저자: PAN Team, Jiannan Xiang, Yi Gu, Zihan Liu, Zeyu Feng, Qiyue Gao, Yiyan Hu, Benhao Huang, Guangyi Liu, Yichi Yang, Kun Zhou, Davit Abrahamyan, Arif Ahmad, Ganesh Bannur, Junrong Chen, Kimi Chen, Mingkai Deng, Ruobing Han, Xinqi Huang, Haoqiang Kang, Zheqi Li, Enze Ma, Hector Ren, Yashowardhan Shinde, Rohan Shingre, Ramsundar Tanikella, Kaiming Tao, Dequan Yang, Xinle Yu, Cong Zeng, Binglin Zhou, Zhengzhong Liu, Zhiting Hu, Eric P. Xing
cs.AI
초록
월드 모델은 지능형 에이전트가 자신의 행동에 따라 세계가 어떻게 변화하는지를 상상하고 예측하며 추론하고, 이에 따라 계획과 전략을 수립할 수 있게 합니다. 최근의 비디오 생성 모델은 사실적인 시각적 시퀀스를 생성하지만, 일반적으로 목적 지향적 추론에 필요한 인과적 제어, 상호작용성, 또는 장기적 일관성 없이 프롬프트에서 전체 비디오로 생성하는 방식으로 작동합니다. 한편, 기존의 월드 모델링 연구는 제한된 도메인(예: 물리, 게임, 또는 3D 장면 역학)에 초점을 맞추어 깊이와 제어 가능성이 부족하며, 다양한 환경과 상호작용 형식 간 일반화에 어려움을 겪습니다. 본 연구에서는 역사와 자연어 행동에 조건부로 고품질 비디오 시뮬레이션을 통해 미래 세계 상태를 예측하는 일반적이고 상호작용 가능하며 장기적인 월드 모델인 PAN을 소개합니다. PAN은 생성적 잠재 예측(GLP) 아키텍처를 채택합니다. 이 아키텍처는 방대한 텍스트 기반 지식에 시뮬레이션을 기반으로 삼고 언어로 지정된 행동에 대한 조건화를 가능하게 하는 대규모 언어 모델(LLM) 기반의 자기회귀적 잠재 역학 백본과, 지각적으로 상세하며 시간적으로 일관된 시각적 관측을 재구성하는 비디오 디퓨전 디코더를 결합하여 잠재 공간 추론(상상)과 실현 가능한 세계 역학(현실) 사이의 통일을 달성합니다. 다양한 도메인에 걸친 대규모 비디오-행동 쌍으로 학습된 PAN은 일관된 장기 역학을 갖춘 개방형 도메인, 행동 조건부 시뮬레이션을 지원합니다. 광범위한 실험을 통해 PAN이 다른 비디오 생성기 및 월드 모델 대비 행동 조건부 세계 시뮬레이션, 장기 예측, 시뮬레이션 추론에서 강력한 성능을 달성함을 보여주며, 추론과 행동을 위한 미래 세계 상태의 예측적 시뮬레이션을 가능하게 하는 일반 월드 모델로 나아가는 한 걸음을 내디뎠습니다.
English
A world model enables an intelligent agent to imagine, predict, and reason about how the world evolves in response to its actions, and accordingly to plan and strategize. While recent video generation models produce realistic visual sequences, they typically operate in the prompt-to-full-video manner without causal control, interactivity, or long-horizon consistency required for purposeful reasoning. Existing world modeling efforts, on the other hand, often focus on restricted domains (e.g., physical, game, or 3D-scene dynamics) with limited depth and controllability, and struggle to generalize across diverse environments and interaction formats. In this work, we introduce PAN, a general, interactable, and long-horizon world model that predicts future world states through high-quality video simulation conditioned on history and natural language actions. PAN employs the Generative Latent Prediction (GLP) architecture that combines an autoregressive latent dynamics backbone based on a large language model (LLM), which grounds simulation in extensive text-based knowledge and enables conditioning on language-specified actions, with a video diffusion decoder that reconstructs perceptually detailed and temporally coherent visual observations, to achieve a unification between latent space reasoning (imagination) and realizable world dynamics (reality). Trained on large-scale video-action pairs spanning diverse domains, PAN supports open-domain, action-conditioned simulation with coherent, long-term dynamics. Extensive experiments show that PAN achieves strong performance in action-conditioned world simulation, long-horizon forecasting, and simulative reasoning compared to other video generators and world models, taking a step towards general world models that enable predictive simulation of future world states for reasoning and acting.