Une vue mécaniste de la génération vidéo comme modèles du monde : État et dynamiques
A Mechanistic View on Video Generation as World Models: State and Dynamics
January 22, 2026
papers.authors: Luozhou Wang, Zhifei Chen, Yihua Du, Dongyu Yan, Wenhang Ge, Guibao Shen, Xinli Xu, Leyi Wu, Man Chen, Tianshuo Xu, Peiran Ren, Xin Tao, Pengfei Wan, Ying-Cong Chen
cs.AI
papers.abstract
Les modèles de génération vidéo à grande échelle ont démontré une cohérence physique émergente, les positionnant comme des modèles du monde potentiels. Cependant, un écart subsiste entre les architectures vidéo contemporaines « sans état » et les théories classiques des modèles du monde centrées sur l'état. Ce travail comble cet écart en proposant une nouvelle taxonomie axée sur deux piliers : la Construction de l'État et la Modélisation de la Dynamique. Nous catégorisons la construction de l'état en paradigmes implicites (gestion du contexte) et explicites (compression latente), tandis que la modélisation de la dynamique est analysée à travers l'intégration des connaissances et la reformulation architecturale. De plus, nous préconisons une transition dans l'évaluation, de la fidélité visuelle vers des benchmarks fonctionnels, testant la persistance physique et le raisonnement causal. Nous concluons en identifiant deux frontières critiques : l'amélioration de la persistance via la mémoire pilotée par les données et la fidélité compressée, et l'avancée de la causalité grâce au découplage des facteurs latents et à l'intégration de préalables de raisonnement. En relevant ces défis, le domaine peut évoluer de la génération de vidéos visuellement plausibles vers la construction de simulateurs du monde robustes et polyvalents.
English
Large-scale video generation models have demonstrated emergent physical coherence, positioning them as potential world models. However, a gap remains between contemporary "stateless" video architectures and classic state-centric world model theories. This work bridges this gap by proposing a novel taxonomy centered on two pillars: State Construction and Dynamics Modeling. We categorize state construction into implicit paradigms (context management) and explicit paradigms (latent compression), while dynamics modeling is analyzed through knowledge integration and architectural reformulation. Furthermore, we advocate for a transition in evaluation from visual fidelity to functional benchmarks, testing physical persistence and causal reasoning. We conclude by identifying two critical frontiers: enhancing persistence via data-driven memory and compressed fidelity, and advancing causality through latent factor decoupling and reasoning-prior integration. By addressing these challenges, the field can evolve from generating visually plausible videos to building robust, general-purpose world simulators.