Fuera de la Vista pero No de la Mente: Memoria Híbrida para Modelos Mundiales de Video Dinámicos

Resumen

Los modelos de video de mundo han demostrado un inmenso potencial para simular el mundo físico, pero los mecanismos de memoria existentes tratan principalmente los entornos como lienzos estáticos. Cuando sujetos dinámicos se ocultan fuera del campo visual y luego reaparecen, los métodos actuales suelen tener dificultades, lo que resulta en sujetos congelados, distorsionados o que desaparecen. Para abordar esto, presentamos Memoria Híbrida, un paradigma novedoso que requiere que los modelos actúen simultáneamente como archivistas precisos para fondos estáticos y como rastreadores vigilantes para sujetos dinámicos, garantizando la continuidad del movimiento durante los intervalos fuera de vista. Para facilitar la investigación en esta dirección, construimos HM-World, el primer conjunto de datos de video a gran escala dedicado a la memoria híbrida. Presenta 59K clips de alta fidelidad con trayectorias desacopladas de cámara y sujeto, abarcando 17 escenas diversas, 49 sujetos distintos y eventos de salida-entrada meticulosamente diseñados para evaluar rigurosamente la coherencia híbrida. Además, proponemos HyDRA, una arquitectura de memoria especializada que comprime la memoria en tokens y utiliza un mecanismo de recuperación impulsado por relevancia espacio-temporal. Al atender selectivamente a las claves de movimiento relevantes, HyDRA preserva efectivamente la identidad y el movimiento de los sujetos ocultos. Experimentos exhaustivos en HM-World demuestran que nuestro método supera significativamente a los enfoques más avanzados tanto en consistencia de sujetos dinámicos como en calidad general de generación.

English

Video world models have shown immense potential in simulating the physical world, yet existing memory mechanisms primarily treat environments as static canvases. When dynamic subjects hide out of sight and later re-emerge, current methods often struggle, leading to frozen, distorted, or vanishing subjects. To address this, we introduce Hybrid Memory, a novel paradigm requiring models to simultaneously act as precise archivists for static backgrounds and vigilant trackers for dynamic subjects, ensuring motion continuity during out-of-view intervals. To facilitate research in this direction, we construct HM-World, the first large-scale video dataset dedicated to hybrid memory. It features 59K high-fidelity clips with decoupled camera and subject trajectories, encompassing 17 diverse scenes, 49 distinct subjects, and meticulously designed exit-entry events to rigorously evaluate hybrid coherence. Furthermore, we propose HyDRA, a specialized memory architecture that compresses memory into tokens and utilizes a spatiotemporal relevance-driven retrieval mechanism. By selectively attending to relevant motion cues, HyDRA effectively preserves the identity and motion of hidden subjects. Extensive experiments on HM-World demonstrate that our method significantly outperforms state-of-the-art approaches in both dynamic subject consistency and overall generation quality.

Fuera de la Vista pero No de la Mente: Memoria Híbrida para Modelos Mundiales de Video Dinámicos

Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

Resumen

Support