LiveWorld: Моделирование динамики за пределами видимости в генеративных видео-мирах

Аннотация

Современные генеративные видео-модели мира ставят целью симулировать эволюцию визуальной среды, позволяя наблюдателю интерактивно исследовать сцену путем управления камерой. Однако в них неявно предполагается, что мир эволюционирует только в поле зрения наблюдателя. Как только объект покидает зону видимости, его состояние «замораживается» в памяти, и последующее возвращение в ту же область часто не отражает событий, которые должны были произойти за это время. В данной работе мы выявляем и формализуем это упущенное ограничение как проблему «динамики вне поля зрения», которая мешает видео-моделям мира представлять непрерывно эволюционирующий мир. Для решения этой проблемы мы предлагаем LiveWorld — новую архитектуру, расширяющую видео-модели мира для поддержки постоянной эволюции среды. Вместо трактовки мира как статичной наблюдательной памяти LiveWorld моделирует устойчивое глобальное состояние, состоящее из статичного 3D-фона и динамических сущностей, которые продолжают эволюционировать даже в отсутствие наблюдения. Для поддержания этой скрытой динамики LiveWorld вводит мониторный механизм, автономно симулирующий временное развитие активных сущностей и синхронизирующий их обновленные состояния при повторном посещении, обеспечивая пространственно-согласованный рендеринг. Для оценки мы дополнительно представляем LiveBench — специализированный бенчмарк для задачи поддержания динамики вне поля зрения. Масштабные эксперименты показывают, что LiveWorld обеспечивает непрерывную эволюцию событий и долгосрочную согласованность сцен, сокращая разрыв между существующей 2D-памятью на основе наблюдений и истинной 4D-симуляцией динамического мира. Исходный код и бенчмарк будут общедоступны по адресу https://zichengduan.github.io/LiveWorld/index.html.

English

Recent generative video world models aim to simulate visual environment evolution, allowing an observer to interactively explore the scene via camera control. However, they implicitly assume that the world only evolves within the observer's field of view. Once an object leaves the observer's view, its state is "frozen" in memory, and revisiting the same region later often fails to reflect events that should have occurred in the meantime. In this work, we identify and formalize this overlooked limitation as the "out-of-sight dynamics" problem, which impedes video world models from representing a continuously evolving world. To address this issue, we propose LiveWorld, a novel framework that extends video world models to support persistent world evolution. Instead of treating the world as static observational memory, LiveWorld models a persistent global state composed of a static 3D background and dynamic entities that continue evolving even when unobserved. To maintain these unseen dynamics, LiveWorld introduces a monitor-based mechanism that autonomously simulates the temporal progression of active entities and synchronizes their evolved states upon revisiting, ensuring spatially coherent rendering. For evaluation, we further introduce LiveBench, a dedicated benchmark for the task of maintaining out-of-sight dynamics. Extensive experiments show that LiveWorld enables persistent event evolution and long-term scene consistency, bridging the gap between existing 2D observation-based memory and true 4D dynamic world simulation. The baseline and benchmark will be publicly available at https://zichengduan.github.io/LiveWorld/index.html.

LiveWorld: Моделирование динамики за пределами видимости в генеративных видео-мирах

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Аннотация

Support