LiveWorld: Simulación de dinámicas fuera de campo en modelos generativos de video mundiales

Resumen

Los modelos generativos de video recientes para mundos virtuales tienen como objetivo simular la evolución de entornos visuales, permitiendo que un observador explore interactivamente la escena mediante el control de la cámara. Sin embargo, asumen implícitamente que el mundo solo evoluciona dentro del campo de visión del observador. Una vez que un objeto sale de la vista del observador, su estado se "congela" en la memoria, y al revisitar la misma región más tarde, a menudo no se reflejan los eventos que deberían haber ocurrido en el interín. En este trabajo, identificamos y formalizamos esta limitación pasada por alto como el problema de la "dinámica fuera de vista", que impide que los modelos de video para mundos representen un mundo en continua evolución. Para abordar este problema, proponemos LiveWorld, un marco novedoso que extiende los modelos de video para mundos y permite la evolución persistente del mundo. En lugar de tratar el mundo como una memoria de observación estática, LiveWorld modela un estado global persistente compuesto por un fondo 3D estático y entidades dinámicas que continúan evolucionando incluso cuando no son observadas. Para mantener estas dinámicas no vistas, LiveWorld introduce un mecanismo basado en monitores que simula autónomamente la progresión temporal de las entidades activas y sincroniza sus estados evolucionados al revisitar, garantizando una representación visual espacialmente coherente. Para la evaluación, presentamos además LiveBench, un punto de referencia dedicado para la tarea de mantener la dinámica fuera de vista. Experimentos exhaustivos muestran que LiveWorld permite una evolución persistente de eventos y una coherencia escénica a largo plazo, cerrando la brecha entre la memoria basada en observación 2D existente y la verdadera simulación de mundos dinámicos en 4D. La línea base y el punto de referencia estarán disponibles públicamente en https://zichengduan.github.io/LiveWorld/index.html.

English

Recent generative video world models aim to simulate visual environment evolution, allowing an observer to interactively explore the scene via camera control. However, they implicitly assume that the world only evolves within the observer's field of view. Once an object leaves the observer's view, its state is "frozen" in memory, and revisiting the same region later often fails to reflect events that should have occurred in the meantime. In this work, we identify and formalize this overlooked limitation as the "out-of-sight dynamics" problem, which impedes video world models from representing a continuously evolving world. To address this issue, we propose LiveWorld, a novel framework that extends video world models to support persistent world evolution. Instead of treating the world as static observational memory, LiveWorld models a persistent global state composed of a static 3D background and dynamic entities that continue evolving even when unobserved. To maintain these unseen dynamics, LiveWorld introduces a monitor-based mechanism that autonomously simulates the temporal progression of active entities and synchronizes their evolved states upon revisiting, ensuring spatially coherent rendering. For evaluation, we further introduce LiveBench, a dedicated benchmark for the task of maintaining out-of-sight dynamics. Extensive experiments show that LiveWorld enables persistent event evolution and long-term scene consistency, bridging the gap between existing 2D observation-based memory and true 4D dynamic world simulation. The baseline and benchmark will be publicly available at https://zichengduan.github.io/LiveWorld/index.html.

LiveWorld: Simulación de dinámicas fuera de campo en modelos generativos de video mundiales

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Resumen

Support