Hors de vue mais pas hors de l'esprit : Mémoire hybride pour les modèles de monde vidéo dynamiques

Résumé

Les modèles vidéo du monde physique ont démontré un potentiel immense pour simuler l'environnement physique, mais les mécanismes de mémoire existants traitent principalement les scènes comme des toiles statiques. Lorsque des sujets dynamiques disparaissent du champ de vision puis réapparaissent, les méthodes actuelles rencontrent souvent des difficultés, entraînant des sujets figés, déformés ou disparaissant. Pour résoudre ce problème, nous présentons la Mémoire Hybride, un nouveau paradigme exigeant des modèles qu'ils agissent simultanément comme des archivistes précis pour les arrière-plans statiques et des traqueurs vigilants pour les sujets dynamiques, garantissant ainsi la continuité du mouvement pendant les périodes de disparition visuelle. Pour faciliter la recherche dans cette direction, nous avons constitué HM-World, la première base de données vidéo à grande scale dédiée à la mémoire hybride. Elle comprend 59 000 séquences haute fidélité avec des trajectoires découplées caméra-sujet, couvrant 17 scènes diverses, 49 sujets distincts et des événements de sortie-entrée méticuleusement conçus pour évaluer rigoureusement la cohérence hybride. Par ailleurs, nous proposons HyDRA, une architecture mémoire spécialisée qui compresse la mémoire en tokens et utilise un mécanisme de récupération piloté par la pertinence spatiotemporelle. En se concentrant sélectivement sur les indices de mouvement pertinents, HyDRA préserve efficacement l'identité et la trajectoire des sujets cachés. Des expériences approfondies sur HM-World démontrent que notre méthode surpasse significativement les approches de l'état de l'art en matière de cohérence des sujets dynamiques et de qualité globale de génération.

English

Video world models have shown immense potential in simulating the physical world, yet existing memory mechanisms primarily treat environments as static canvases. When dynamic subjects hide out of sight and later re-emerge, current methods often struggle, leading to frozen, distorted, or vanishing subjects. To address this, we introduce Hybrid Memory, a novel paradigm requiring models to simultaneously act as precise archivists for static backgrounds and vigilant trackers for dynamic subjects, ensuring motion continuity during out-of-view intervals. To facilitate research in this direction, we construct HM-World, the first large-scale video dataset dedicated to hybrid memory. It features 59K high-fidelity clips with decoupled camera and subject trajectories, encompassing 17 diverse scenes, 49 distinct subjects, and meticulously designed exit-entry events to rigorously evaluate hybrid coherence. Furthermore, we propose HyDRA, a specialized memory architecture that compresses memory into tokens and utilizes a spatiotemporal relevance-driven retrieval mechanism. By selectively attending to relevant motion cues, HyDRA effectively preserves the identity and motion of hidden subjects. Extensive experiments on HM-World demonstrate that our method significantly outperforms state-of-the-art approaches in both dynamic subject consistency and overall generation quality.

Hors de vue mais pas hors de l'esprit : Mémoire hybride pour les modèles de monde vidéo dynamiques

Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

Résumé

Support