Fuori dalla Vista ma Non dalla Mente: Memoria Ibrida per Modelli Dinamici del Mondo Video

Abstract

I modelli video del mondo hanno dimostrato un immenso potenziale nella simulazione del mondo fisico, tuttavia i meccanismi di memoria esistenti trattano principalmente gli ambienti come tele statiche. Quando soggetti dinamici si nascondono alla vista per poi riemergere, i metodi attuali spesso incontrano difficoltà, portando a soggetti congelati, distorti o che scompaiono. Per affrontare questo problema, introduciamo Hybrid Memory, un paradigma innovativo che richiede ai modelli di agire simultaneamente come archivisti precisi per gli sfondi statici e come tracker vigili per i soggetti dinamici, garantendo la continuità del movimento durante gli intervalli in cui sono fuori campo. Per facilitare la ricerca in questa direzione, abbiamo costruito HM-World, il primo dataset video su larga scala dedicato alla memoria ibrida. Presenta 59K clip ad alta fedeltà con traiettorie disaccoppiate di telecamera e soggetto, che abbracciano 17 scene diverse, 49 soggetti distinti ed eventi di uscita-entrata meticolosamente progettati per valutare rigorosamente la coerenza ibrida. Inoltre, proponiamo HyDRA, un'architettura di memoria specializzata che comprime la memoria in token e utilizza un meccanismo di recupero guidato dalla rilevanza spaziotemporale. Prestando selettivamente attenzione agli indizi di movimento rilevanti, HyDRA preserva efficacemente l'identità e il movimento dei soggetti nascosti. Esperimenti estensivi su HM-World dimostrano che il nostro metodo supera significativamente gli approcci all'avanguardia sia nella coerenza dei soggetti dinamici che nella qualità generale della generazione.

English

Video world models have shown immense potential in simulating the physical world, yet existing memory mechanisms primarily treat environments as static canvases. When dynamic subjects hide out of sight and later re-emerge, current methods often struggle, leading to frozen, distorted, or vanishing subjects. To address this, we introduce Hybrid Memory, a novel paradigm requiring models to simultaneously act as precise archivists for static backgrounds and vigilant trackers for dynamic subjects, ensuring motion continuity during out-of-view intervals. To facilitate research in this direction, we construct HM-World, the first large-scale video dataset dedicated to hybrid memory. It features 59K high-fidelity clips with decoupled camera and subject trajectories, encompassing 17 diverse scenes, 49 distinct subjects, and meticulously designed exit-entry events to rigorously evaluate hybrid coherence. Furthermore, we propose HyDRA, a specialized memory architecture that compresses memory into tokens and utilizes a spatiotemporal relevance-driven retrieval mechanism. By selectively attending to relevant motion cues, HyDRA effectively preserves the identity and motion of hidden subjects. Extensive experiments on HM-World demonstrate that our method significantly outperforms state-of-the-art approaches in both dynamic subject consistency and overall generation quality.

Fuori dalla Vista ma Non dalla Mente: Memoria Ibrida per Modelli Dinamici del Mondo Video

Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

Abstract

Support