LiveWorld: Simulation von Dynamiken außerhalb des Sichtfelds in generativen Videoweltmodellen

Zusammenfassung

Aktuelle generative Video-Weltmodelle zielen darauf ab, die Evolution visueller Umgebungen zu simulieren, sodass ein Beobachter die Szene interaktiv via Kamerasteuerung erkunden kann. Sie gehen jedoch implizit davon aus, dass sich die Welt nur innerhalb des Sichtfelds des Beobachters weiterentwickelt. Sobald ein Objekt den Blickbereich verlässt, wird sein Zustand im Gedächtnis "eingefroren", und das spätere Wiederaufrufen derselben Region spiegelt oft nicht die Ereignisse wider, die in der Zwischenzeit hätten stattfinden sollen. In dieser Arbeit identifizieren und formalisieren wir diese übersehene Einschränkung als das "Out-of-Sight-Dynamics"-Problem, das Video-Weltmodelle daran hindert, eine kontinuierlich fortschreitende Welt abzubilden. Um dieses Problem zu adressieren, schlagen wir LiveWorld vor, einen neuartigen Rahmen, der Video-Weltmodelle um persistente Weltentwicklung erweitert. Anstatt die Welt als statischen Beobachtungsspeicher zu behandeln, modelliert LiveWorld einen persistenten globalen Zustand, der aus einem statischen 3D-Hintergrund und dynamischen Entitäten besteht, die sich auch bei Nichtbeobachtung weiterentwickeln. Um diese unsichtbaren Dynamiken aufrechtzuerhalten, führt LiveWorld einen monitorbasierten Mechanismus ein, der den zeitlichen Verlauf aktiver Entitäten autonom simuliert und deren weiterentwickelte Zustände beim Wiederaufrufen synchronisiert, um räumlich kohärentes Rendering zu gewährleisten. Für die Evaluation führen wir zudem LiveBench ein, einen speziellen Benchmark für die Aufgabe der Aufrechterhaltung von Out-of-Sight-Dynamiken. Umfangreiche Experimente zeigen, dass LiveWorld persistente Ereignisentwicklung und langfristige Szenenkonsistenz ermöglicht und so die Lücke zwischen bestehendem 2D-Beobachtungsgedächtnis und wahrer 4D-dynamischer Weltsimulation schließt. Die Baseline und der Benchmark werden unter https://zichengduan.github.io/LiveWorld/index.html öffentlich verfügbar sein.

English

Recent generative video world models aim to simulate visual environment evolution, allowing an observer to interactively explore the scene via camera control. However, they implicitly assume that the world only evolves within the observer's field of view. Once an object leaves the observer's view, its state is "frozen" in memory, and revisiting the same region later often fails to reflect events that should have occurred in the meantime. In this work, we identify and formalize this overlooked limitation as the "out-of-sight dynamics" problem, which impedes video world models from representing a continuously evolving world. To address this issue, we propose LiveWorld, a novel framework that extends video world models to support persistent world evolution. Instead of treating the world as static observational memory, LiveWorld models a persistent global state composed of a static 3D background and dynamic entities that continue evolving even when unobserved. To maintain these unseen dynamics, LiveWorld introduces a monitor-based mechanism that autonomously simulates the temporal progression of active entities and synchronizes their evolved states upon revisiting, ensuring spatially coherent rendering. For evaluation, we further introduce LiveBench, a dedicated benchmark for the task of maintaining out-of-sight dynamics. Extensive experiments show that LiveWorld enables persistent event evolution and long-term scene consistency, bridging the gap between existing 2D observation-based memory and true 4D dynamic world simulation. The baseline and benchmark will be publicly available at https://zichengduan.github.io/LiveWorld/index.html.

LiveWorld: Simulation von Dynamiken außerhalb des Sichtfelds in generativen Videoweltmodellen

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Zusammenfassung

Support