Aus den Augen, nicht aus dem Sinn: Hybrider Speicher für dynamische Videoweltenmodelle

Zusammenfassung

Videoweltenmodelle haben ein immenses Potenzial bei der Simulation der physikalischen Welt gezeigt, doch bestehende Gedächtnismechanismen behandeln Umgebungen primär als statische Leinwände. Wenn sich dynamische Objekte außer Sichtweite bewegen und später wieder auftauchen, stoßen aktuelle Methoden häufig an ihre Grenzen, was zu eingefrorenen, verzerrten oder verschwindenden Objekten führt. Um dieses Problem zu lösen, führen wir Hybrid Memory ein – ein neuartiges Paradigma, das Modelle dazu befähigt, gleichzeitig als präzise Archivare für statische Hintergründe und wachsame Verfolger für dynamische Objekte zu agieren und so Bewegungskontinuität während Abwesenheitsphasen sicherzustellen. Um Forschungen in dieser Richtung zu ermöglichen, haben wir HM-World aufgebaut, den ersten groß angelegten Videodatensatz für hybrides Gedächtnis. Dieser umfasst 59.000 hochauflösende Clips mit entkoppelten Kamera- und Objekttrajektorien, 17 diverse Szenen, 49 unterschiedliche Objekte und sorgfältig gestaltete Aus- und Eintrittsereignisse zur rigorosen Bewertung hybrider Kohärenz. Darüber hinaus präsentieren wir HyDRA, eine spezialisierte Gedächtnisarchitektur, die Erinnerungen in Tokens komprimiert und einen raumzeitlich relevanzgesteuerten Abrufmechanismus nutzt. Durch selektive Fokussierung auf relevante Bewegungshinweise bewahrt HyDRA effektiv Identität und Bewegung verdeckter Objekte. Umfangreiche Experimente auf HM-World zeigen, dass unser Verfahren state-of-the-art-Ansätze sowohl in der Konsistenz dynamischer Objekte als auch in der generellen Erzeugungsqualität signifikant übertrifft.

English

Video world models have shown immense potential in simulating the physical world, yet existing memory mechanisms primarily treat environments as static canvases. When dynamic subjects hide out of sight and later re-emerge, current methods often struggle, leading to frozen, distorted, or vanishing subjects. To address this, we introduce Hybrid Memory, a novel paradigm requiring models to simultaneously act as precise archivists for static backgrounds and vigilant trackers for dynamic subjects, ensuring motion continuity during out-of-view intervals. To facilitate research in this direction, we construct HM-World, the first large-scale video dataset dedicated to hybrid memory. It features 59K high-fidelity clips with decoupled camera and subject trajectories, encompassing 17 diverse scenes, 49 distinct subjects, and meticulously designed exit-entry events to rigorously evaluate hybrid coherence. Furthermore, we propose HyDRA, a specialized memory architecture that compresses memory into tokens and utilizes a spatiotemporal relevance-driven retrieval mechanism. By selectively attending to relevant motion cues, HyDRA effectively preserves the identity and motion of hidden subjects. Extensive experiments on HM-World demonstrate that our method significantly outperforms state-of-the-art approaches in both dynamic subject consistency and overall generation quality.

Aus den Augen, nicht aus dem Sinn: Hybrider Speicher für dynamische Videoweltenmodelle

Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

Zusammenfassung

Support