Вне поля зрения, но не из памяти: гибридная память для динамических видеомировых моделей

Аннотация

Видеомодели мира продемонстрировали огромный потенциал в моделировании физического мира, однако существующие механизмы памяти в основном рассматривают окружение как статичные полотна. Когда динамические объекты скрываются из поля зрения и позже появляются вновь, современные методы часто дают сбои, приводя к застывшим, искаженным или исчезающим объектам. Для решения этой проблемы мы представляем Hybrid Memory — новую парадигму, требующую от моделей одновременного выполнения роли точных архивариусов для статичных фонов и бдительных трекеров для динамических объектов, обеспечивая непрерывность движения в периоды их отсутствия в поле зрения. Для стимулирования исследований в этом направлении мы создали HM-World, первую крупномасштабную видеобазу данных, предназначенную для гибридной памяти. Она содержит 59 тысяч высококачественных клипов с разделенными траекториями камеры и объектов, охватывает 17 разнообразных сцен, 49 различных объектов и включает тщательно спроектированные события выхода-входа для строгой оценки гибридной согласованности. Кроме того, мы предлагаем HyDRA — специализированную архитектуру памяти, которая сжимает память в токены и использует механизм поиска на основе пространственно-временной релевантности. Избирательно фокусируясь на релевантных Motion-признаках, HyDRA эффективно сохраняет идентичность и движение скрытых объектов. Многочисленные эксперименты на HM-World демонстрируют, что наш метод значительно превосходит современные подходы как по согласованности динамических объектов, так и по общему качеству генерации.

English

Video world models have shown immense potential in simulating the physical world, yet existing memory mechanisms primarily treat environments as static canvases. When dynamic subjects hide out of sight and later re-emerge, current methods often struggle, leading to frozen, distorted, or vanishing subjects. To address this, we introduce Hybrid Memory, a novel paradigm requiring models to simultaneously act as precise archivists for static backgrounds and vigilant trackers for dynamic subjects, ensuring motion continuity during out-of-view intervals. To facilitate research in this direction, we construct HM-World, the first large-scale video dataset dedicated to hybrid memory. It features 59K high-fidelity clips with decoupled camera and subject trajectories, encompassing 17 diverse scenes, 49 distinct subjects, and meticulously designed exit-entry events to rigorously evaluate hybrid coherence. Furthermore, we propose HyDRA, a specialized memory architecture that compresses memory into tokens and utilizes a spatiotemporal relevance-driven retrieval mechanism. By selectively attending to relevant motion cues, HyDRA effectively preserves the identity and motion of hidden subjects. Extensive experiments on HM-World demonstrate that our method significantly outperforms state-of-the-art approaches in both dynamic subject consistency and overall generation quality.

Вне поля зрения, но не из памяти: гибридная память для динамических видеомировых моделей

Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

Аннотация

Support