LiveWorld: Simulazione delle dinamiche fuori campo nei modelli generativi di mondi video

Abstract

I recenti modelli generativi video di mondo mirano a simulare l'evoluzione degli ambienti visivi, consentendo a un osservatore di esplorare interattivamente la scena tramite il controllo della telecamera. Tuttavia, essi presuppongono implicitamente che il mondo evolva solo all'interno del campo visivo dell'osservatore. Una volta che un oggetto esce dalla vista dell'osservatore, il suo stato viene "congelato" nella memoria, e rivisitare la stessa regione in un secondo momento spesso non riflette gli eventi che sarebbero dovuti accadere nel frattempo. In questo lavoro, identifichiamo e formalizziamo questa limitazione trascurata come il problema delle "dinamiche fuori campo", che impedisce ai modelli video di mondo di rappresentare un mondo in continua evoluzione. Per affrontare questo problema, proponiamo LiveWorld, un framework innovativo che estende i modelli video di mondo per supportare un'evoluzione mondiale persistente. Invece di trattare il mondo come una memoria osservativa statica, LiveWorld modella uno stato globale persistente composto da uno sfondo 3D statico e da entità dinamiche che continuano a evolversi anche quando non sono osservate. Per mantenere queste dinamiche non viste, LiveWorld introduce un meccanismo basato su monitor che simula autonomamente la progressione temporale delle entità attive e sincronizza i loro stati evoluti al momento della rivisitazione, garantendo un rendering spazialmente coerente. Per la valutazione, introduciamo inoltre LiveBench, un benchmark dedicato al compito di mantenere le dinamiche fuori campo. Esperimenti estesi mostrano che LiveWorld abilita un'evoluzione persistente degli eventi e una coerenza scenica a lungo termine, colmando il divario tra l'attuale memoria basata su osservazioni 2D e una vera simulazione dinamica del mondo in 4D. Il baseline e il benchmark saranno pubblicamente disponibili all'indirizzo https://zichengduan.github.io/LiveWorld/index.html.

English

Recent generative video world models aim to simulate visual environment evolution, allowing an observer to interactively explore the scene via camera control. However, they implicitly assume that the world only evolves within the observer's field of view. Once an object leaves the observer's view, its state is "frozen" in memory, and revisiting the same region later often fails to reflect events that should have occurred in the meantime. In this work, we identify and formalize this overlooked limitation as the "out-of-sight dynamics" problem, which impedes video world models from representing a continuously evolving world. To address this issue, we propose LiveWorld, a novel framework that extends video world models to support persistent world evolution. Instead of treating the world as static observational memory, LiveWorld models a persistent global state composed of a static 3D background and dynamic entities that continue evolving even when unobserved. To maintain these unseen dynamics, LiveWorld introduces a monitor-based mechanism that autonomously simulates the temporal progression of active entities and synchronizes their evolved states upon revisiting, ensuring spatially coherent rendering. For evaluation, we further introduce LiveBench, a dedicated benchmark for the task of maintaining out-of-sight dynamics. Extensive experiments show that LiveWorld enables persistent event evolution and long-term scene consistency, bridging the gap between existing 2D observation-based memory and true 4D dynamic world simulation. The baseline and benchmark will be publicly available at https://zichengduan.github.io/LiveWorld/index.html.

LiveWorld: Simulazione delle dinamiche fuori campo nei modelli generativi di mondi video

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Abstract

Support