LiveWorld : Simulation de la dynamique hors champ dans les modèles génératifs de monde vidéo

Résumé

Les modèles génératifs vidéo récents visent à simuler l'évolution des environnements visuels, permettant à un observateur d'explorer interactivement la scène via le contrôle de la caméra. Cependant, ils supposent implicitement que le monde n'évolue que dans le champ de vision de l'observateur. Une fois qu'un objet quitte la vue de l'observateur, son état est "figé" en mémoire, et revisiter la même région plus tard échoue souvent à refléter les événements qui auraient dû se produire entretemps. Dans ce travail, nous identifions et formalisons cette limitation négligée comme le problème des "dynamiques hors champ", qui empêche les modèles vidéo de monde de représenter un monde en évolution continue. Pour résoudre ce problème, nous proposons LiveWorld, un cadre novateur qui étend les modèles vidéo de monde pour supporter une évolution mondiale persistante. Au lieu de traiter le monde comme une mémoire observationnelle statique, LiveWorld modélise un état global persistant composé d'un arrière-plan 3D statique et d'entités dynamiques qui continuent d'évoluer même lorsqu'elles ne sont pas observées. Pour maintenir ces dynamiques invisibles, LiveWorld introduit un mécanisme basé sur des moniteurs qui simule autonome-ment la progression temporelle des entités actives et synchronise leurs états évolués lors des revisites, garantissant un rendu spatialement cohérent. Pour l'évaluation, nous introduisons en outre LiveBench, un benchmark dédié à la tâche de maintien des dynamiques hors champ. Des expériences approfondies montrent que LiveWorld permet une évolution persistante des événements et une cohérence scénique à long terme, comblant l'écart entre la mémoire observationnelle 2D existante et la véritable simulation de monde dynamique 4D. Le modèle de base et le benchmark seront publics sur https://zichengduan.github.io/LiveWorld/index.html.

English

Recent generative video world models aim to simulate visual environment evolution, allowing an observer to interactively explore the scene via camera control. However, they implicitly assume that the world only evolves within the observer's field of view. Once an object leaves the observer's view, its state is "frozen" in memory, and revisiting the same region later often fails to reflect events that should have occurred in the meantime. In this work, we identify and formalize this overlooked limitation as the "out-of-sight dynamics" problem, which impedes video world models from representing a continuously evolving world. To address this issue, we propose LiveWorld, a novel framework that extends video world models to support persistent world evolution. Instead of treating the world as static observational memory, LiveWorld models a persistent global state composed of a static 3D background and dynamic entities that continue evolving even when unobserved. To maintain these unseen dynamics, LiveWorld introduces a monitor-based mechanism that autonomously simulates the temporal progression of active entities and synchronizes their evolved states upon revisiting, ensuring spatially coherent rendering. For evaluation, we further introduce LiveBench, a dedicated benchmark for the task of maintaining out-of-sight dynamics. Extensive experiments show that LiveWorld enables persistent event evolution and long-term scene consistency, bridging the gap between existing 2D observation-based memory and true 4D dynamic world simulation. The baseline and benchmark will be publicly available at https://zichengduan.github.io/LiveWorld/index.html.

LiveWorld : Simulation de la dynamique hors champ dans les modèles génératifs de monde vidéo

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Résumé

Support