視界の外にあっても心に留めて:動的ビデオ世界モデルのためのハイブリッドメモリ
Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models
March 26, 2026
著者: Kaijin Chen, Dingkang Liang, Xin Zhou, Yikang Ding, Xiaoqiang Liu, Pengfei Wan, Xiang Bai
cs.AI
要旨
映像世界モデルは物理世界のシミュレーションにおいて大きな可能性を示しているが、既存のメモリ機構は環境を静的なキャンバスとして扱うことが主流である。動的な被写体が視界から隠れ、後に再登場する場合、現在の手法では被写体の凍結・歪み・消失が生じやすい。この問題に対処するため、我々はHybrid Memoryという新たなパラダイムを提案する。これはモデルが静的な背景に対しては正確な記録係として、動的な被写体に対しては警戒深い追跡係として同時に振る舞うことを要求し、視界外期間中の動作連続性を保証するものだ。この研究方向を促進するため、ハイブリッドメモリに特化した初の大規模映像データセットHM-Worldを構築した。これはカメラ軌道と被写体軌道を分離した5万9千の高精細クリップを含み、17の多様な場景、49の異なる被写体、厳密に設計された退出・進入イベントを特徴とし、ハイブリッド一貫性を厳密に評価できる。さらに、メモリをトークンに圧縮し時空間的関連性駆動の検索機構を備えた専用メモリアーキテクチャHyDRAを提案する。関連する動作手がかりを選択的に注目することで、HyDRAは隠れた被写体の識別性と動作を効果的に保持する。HM-Worldを用いた大規模実験により、本手法が動的被写体の一貫性と全体の生成品質の両方において既存の最先端手法を大きく上回ることを実証した。
English
Video world models have shown immense potential in simulating the physical world, yet existing memory mechanisms primarily treat environments as static canvases. When dynamic subjects hide out of sight and later re-emerge, current methods often struggle, leading to frozen, distorted, or vanishing subjects. To address this, we introduce Hybrid Memory, a novel paradigm requiring models to simultaneously act as precise archivists for static backgrounds and vigilant trackers for dynamic subjects, ensuring motion continuity during out-of-view intervals. To facilitate research in this direction, we construct HM-World, the first large-scale video dataset dedicated to hybrid memory. It features 59K high-fidelity clips with decoupled camera and subject trajectories, encompassing 17 diverse scenes, 49 distinct subjects, and meticulously designed exit-entry events to rigorously evaluate hybrid coherence. Furthermore, we propose HyDRA, a specialized memory architecture that compresses memory into tokens and utilizes a spatiotemporal relevance-driven retrieval mechanism. By selectively attending to relevant motion cues, HyDRA effectively preserves the identity and motion of hidden subjects. Extensive experiments on HM-World demonstrate that our method significantly outperforms state-of-the-art approaches in both dynamic subject consistency and overall generation quality.