LiveWorld: Het simuleren van onzichtbare dynamiek in generatieve videowereldmodellen

Samenvatting

Recente generatieve videowereldmodellen streven ernaar de evolutie van visuele omgevingen te simuleren, waardoor een waarnemer de scène interactief kan verkennen via camerabesturing. Ze gaan er echter impliciet van uit dat de wereld alleen evolueert binnen het gezichtsveld van de waarnemer. Zodra een object het blikveld verlaat, wordt zijn toestand "bevroren" in het geheugen, en het later opnieuw bezoeken van dezelfde regio weerspiegelt vaak niet de gebeurtenissen die in de tussentijd hadden moeten plaatsvinden. In dit werk identificeren en formaliseren we deze over het hoofd gezien beperking als het "out-of-sight dynamics"-probleem, dat videowereldmodellen verhindert een continu evoluerende wereld te representeren. Om dit probleem aan te pakken, stellen we LiveWorld voor, een nieuw raamwerk dat videowereldmodellen uitbreidt om persistente wereldevolutie te ondersteunen. In plaats van de wereld te behandelen als statisch observationeel geheugen, modelleert LiveWorld een persistente globale toestand bestaande uit een statische 3D-achtergrond en dynamische entiteiten die blijven evolueren, zelfs wanneer ze niet worden waargenomen. Om deze onzichtbare dynamiek te handhaven, introduceert LiveWorld een op monitors gebaseerd mechanisme dat autonoom de temporele voortgang van actieve entiteiten simuleert en hun geëvolueerde toestanden synchroniseert bij herbezoek, waardoor ruimtelijk coherente rendering wordt gegarandeerd. Voor evaluatie introduceren we verder LiveBench, een toegewijd benchmark voor de taak van het handhaven van out-of-sight dynamiek. Uitgebreide experimenten tonen aan dat LiveWorld persistente gebeurtenisevolutie en langetermijnsceneconsistentie mogelijk maakt, waardoor de kloof wordt overbrugd tussen bestaand 2D observatiegebaseerd geheugen en echte 4D dynamische wereldsimulatie. De baseline en benchmark zullen publiekelijk beschikbaar zijn op https://zichengduan.github.io/LiveWorld/index.html.

English

Recent generative video world models aim to simulate visual environment evolution, allowing an observer to interactively explore the scene via camera control. However, they implicitly assume that the world only evolves within the observer's field of view. Once an object leaves the observer's view, its state is "frozen" in memory, and revisiting the same region later often fails to reflect events that should have occurred in the meantime. In this work, we identify and formalize this overlooked limitation as the "out-of-sight dynamics" problem, which impedes video world models from representing a continuously evolving world. To address this issue, we propose LiveWorld, a novel framework that extends video world models to support persistent world evolution. Instead of treating the world as static observational memory, LiveWorld models a persistent global state composed of a static 3D background and dynamic entities that continue evolving even when unobserved. To maintain these unseen dynamics, LiveWorld introduces a monitor-based mechanism that autonomously simulates the temporal progression of active entities and synchronizes their evolved states upon revisiting, ensuring spatially coherent rendering. For evaluation, we further introduce LiveBench, a dedicated benchmark for the task of maintaining out-of-sight dynamics. Extensive experiments show that LiveWorld enables persistent event evolution and long-term scene consistency, bridging the gap between existing 2D observation-based memory and true 4D dynamic world simulation. The baseline and benchmark will be publicly available at https://zichengduan.github.io/LiveWorld/index.html.

LiveWorld: Het simuleren van onzichtbare dynamiek in generatieve videowereldmodellen

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Samenvatting

Support