LiveWorld: Simulando Dinâmicas Fora do Campo de Visão em Modelos Generativos de Mundo em Vídeo

Resumo

Os modelos generativos de vídeo de mundo recentes visam simular a evolução do ambiente visual, permitindo que um observador explore interativamente a cena através do controle da câmera. No entanto, eles assumem implicitamente que o mundo só evolui dentro do campo de visão do observador. Uma vez que um objeto sai do campo de visão do observador, seu estado é "congelado" na memória, e revisitar a mesma região mais tarde frequentemente falha em refletir eventos que deveriam ter ocorrido nesse intervalo. Neste trabalho, identificamos e formalizamos essa limitação negligenciada como o problema da "dinâmica fora de vista", que impede os modelos de vídeo de mundo de representar um mundo em evolução contínua. Para resolver esta questão, propomos o LiveWorld, uma nova estrutura que estende os modelos de vídeo de mundo para suportar a evolução mundial persistente. Em vez de tratar o mundo como uma memória observacional estática, o LiveWorld modela um estado global persistente composto por um fundo 3D estático e entidades dinâmicas que continuam evoluindo mesmo quando não observadas. Para manter essas dinâmicas não vistas, o LiveWorld introduz um mecanismo baseado em monitor que simula autonomamente a progressão temporal de entidades ativas e sincroniza seus estados evoluídos ao revisitar, garantindo uma renderização espacialmente coerente. Para avaliação, introduzimos ainda o LiveBench, um benchmark dedicado à tarefa de manutenção de dinâmicas fora de vista. Experimentos extensivos mostram que o LiveWorld permite a evolução persistente de eventos e a consistência de cena de longo prazo, preenchendo a lacuna entre a memória baseada em observação 2D existente e a verdadeira simulação de mundo dinâmico 4D. A linha de base e o benchmark estarão publicamente disponíveis em https://zichengduan.github.io/LiveWorld/index.html.

English

Recent generative video world models aim to simulate visual environment evolution, allowing an observer to interactively explore the scene via camera control. However, they implicitly assume that the world only evolves within the observer's field of view. Once an object leaves the observer's view, its state is "frozen" in memory, and revisiting the same region later often fails to reflect events that should have occurred in the meantime. In this work, we identify and formalize this overlooked limitation as the "out-of-sight dynamics" problem, which impedes video world models from representing a continuously evolving world. To address this issue, we propose LiveWorld, a novel framework that extends video world models to support persistent world evolution. Instead of treating the world as static observational memory, LiveWorld models a persistent global state composed of a static 3D background and dynamic entities that continue evolving even when unobserved. To maintain these unseen dynamics, LiveWorld introduces a monitor-based mechanism that autonomously simulates the temporal progression of active entities and synchronizes their evolved states upon revisiting, ensuring spatially coherent rendering. For evaluation, we further introduce LiveBench, a dedicated benchmark for the task of maintaining out-of-sight dynamics. Extensive experiments show that LiveWorld enables persistent event evolution and long-term scene consistency, bridging the gap between existing 2D observation-based memory and true 4D dynamic world simulation. The baseline and benchmark will be publicly available at https://zichengduan.github.io/LiveWorld/index.html.

LiveWorld: Simulando Dinâmicas Fora do Campo de Visão em Modelos Generativos de Mundo em Vídeo

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Resumo

Support