Uit het zicht, maar niet uit het hart: Hybride geheugen voor dynamische videowereldmodellen

Samenvatting

Videowereldmodellen hebben een enorm potentieel getoond in het simuleren van de fysieke wereld, maar bestaande geheugenmechanismen behandelen omgevingen voornamelijk als statische canvassen. Wanneer dynamische objecten uit het zicht verdwijnen en later terugkeren, worstelen huidige methodes vaak, wat leidt tot bevroren, vervormde of verdwijnende objecten. Om dit aan te pakken, introduceren wij Hybride Geheugen, een nieuw paradigma dat modellen vereist om tegelijkertijd te fungeren als precieze archivarissen voor statische achtergronden en waakzame trackers voor dynamische objecten, om zo bewegingcontinuïteit tijdens afwezigheidsintervallen te garanderen. Om onderzoek in deze richting te faciliteren, construeren wij HM-World, de eerste grootschalige videodataset speciaal gewijd aan hybride geheugen. Deze bevat 59K hoogwaardige clips met ontkoppelde camera- en objecttrajecten, bestrijkt 17 diverse scènes, 49 verschillende objecten, en bevat zorgvuldig ontworpen uitstap-instap-gebeurtenissen om hybride coherentie rigoureus te evalueren. Verder stellen wij HyDRA voor, een gespecialiseerde geheugenarchitectuur die geheugen comprimeert tot tokens en een spatiotemporele relevantie-gedreven retrievalsysteem gebruikt. Door selectief aandacht te besteden aan relevante bewegingsaanwijzingen, behoudt HyDRA effectief de identiteit en beweging van verborgen objecten. Uitgebreide experimenten op HM-World tonen aan dat onze methode state-of-the-art benaderingen significant overtreft in zowel de consistentie van dynamische objecten als de algehele generatiekwaliteit.

English

Video world models have shown immense potential in simulating the physical world, yet existing memory mechanisms primarily treat environments as static canvases. When dynamic subjects hide out of sight and later re-emerge, current methods often struggle, leading to frozen, distorted, or vanishing subjects. To address this, we introduce Hybrid Memory, a novel paradigm requiring models to simultaneously act as precise archivists for static backgrounds and vigilant trackers for dynamic subjects, ensuring motion continuity during out-of-view intervals. To facilitate research in this direction, we construct HM-World, the first large-scale video dataset dedicated to hybrid memory. It features 59K high-fidelity clips with decoupled camera and subject trajectories, encompassing 17 diverse scenes, 49 distinct subjects, and meticulously designed exit-entry events to rigorously evaluate hybrid coherence. Furthermore, we propose HyDRA, a specialized memory architecture that compresses memory into tokens and utilizes a spatiotemporal relevance-driven retrieval mechanism. By selectively attending to relevant motion cues, HyDRA effectively preserves the identity and motion of hidden subjects. Extensive experiments on HM-World demonstrate that our method significantly outperforms state-of-the-art approaches in both dynamic subject consistency and overall generation quality.

Uit het zicht, maar niet uit het hart: Hybride geheugen voor dynamische videowereldmodellen

Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

Samenvatting

Support