ChatPaper.aiChatPaper

PAN: Модель мира для общего, интерактивного и долгосрочного моделирования мира

PAN: A World Model for General, Interactable, and Long-Horizon World Simulation

November 12, 2025
Авторы: PAN Team, Jiannan Xiang, Yi Gu, Zihan Liu, Zeyu Feng, Qiyue Gao, Yiyan Hu, Benhao Huang, Guangyi Liu, Yichi Yang, Kun Zhou, Davit Abrahamyan, Arif Ahmad, Ganesh Bannur, Junrong Chen, Kimi Chen, Mingkai Deng, Ruobing Han, Xinqi Huang, Haoqiang Kang, Zheqi Li, Enze Ma, Hector Ren, Yashowardhan Shinde, Rohan Shingre, Ramsundar Tanikella, Kaiming Tao, Dequan Yang, Xinle Yu, Cong Zeng, Binglin Zhou, Zhengzhong Liu, Zhiting Hu, Eric P. Xing
cs.AI

Аннотация

Модель мира позволяет интеллектуальному агенту представлять, предсказывать и анализировать, как мир изменяется в ответ на его действия, и на этой основе планировать и вырабатывать стратегии. Хотя современные модели генерации видео создают реалистичные визуальные последовательности, они обычно работают по принципу «текстовый запрос — полное видео» без причинно-следственного контроля, интерактивности или долгосрочной согласованности, необходимых для целенаправленного рассуждения. Существующие же подходы к моделированию мира часто сосредоточены на ограниченных областях (например, физика, игры или динамика 3D-сцен) с недостаточной глубиной и управляемостью и с трудом обобщаются на разнообразные среды и форматы взаимодействия. В данной работе мы представляем PAN — универсальную, интерактивную и долгосрочную модель мира, которая предсказывает будущие состояния мира через высококачественное видео-моделирование, обусловленное историей и действиями на естественном языке. PAN использует архитектуру Generative Latent Prediction (GLP), сочетающую авторегрессионную динамику в латентном пространстве на основе большой языковой модели (LLM) — что связывает моделирование с обширными текстовыми знаниями и позволяет учитывать действия, заданные языком, — с видео-диффузионным декодером, восстанавливающим перцептивно детальные и временно согласованные визуальные наблюдения. Это обеспечивает объединение рассуждений в латентном пространстве (воображение) и реализуемой динамики мира (реальность). Обученная на масштабных наборах видео-действий из различных областей, PAN поддерживает открытое, обусловленное действиями моделирование с согласованной долгосрочной динамикой. Многочисленные эксперименты показывают, что PAN демонстрирует высокую производительность в обусловленном действиями моделировании мира, долгосрочном прогнозировании и симулятивных рассуждениях по сравнению с другими генераторами видео и моделями мира, делая шаг к созданию универсальных моделей мира, позволяющих прогнозировать будущие состояния для рассуждений и действий.
English
A world model enables an intelligent agent to imagine, predict, and reason about how the world evolves in response to its actions, and accordingly to plan and strategize. While recent video generation models produce realistic visual sequences, they typically operate in the prompt-to-full-video manner without causal control, interactivity, or long-horizon consistency required for purposeful reasoning. Existing world modeling efforts, on the other hand, often focus on restricted domains (e.g., physical, game, or 3D-scene dynamics) with limited depth and controllability, and struggle to generalize across diverse environments and interaction formats. In this work, we introduce PAN, a general, interactable, and long-horizon world model that predicts future world states through high-quality video simulation conditioned on history and natural language actions. PAN employs the Generative Latent Prediction (GLP) architecture that combines an autoregressive latent dynamics backbone based on a large language model (LLM), which grounds simulation in extensive text-based knowledge and enables conditioning on language-specified actions, with a video diffusion decoder that reconstructs perceptually detailed and temporally coherent visual observations, to achieve a unification between latent space reasoning (imagination) and realizable world dynamics (reality). Trained on large-scale video-action pairs spanning diverse domains, PAN supports open-domain, action-conditioned simulation with coherent, long-term dynamics. Extensive experiments show that PAN achieves strong performance in action-conditioned world simulation, long-horizon forecasting, and simulative reasoning compared to other video generators and world models, taking a step towards general world models that enable predictive simulation of future world states for reasoning and acting.
PDF733December 1, 2025