ChatPaper.aiChatPaper

Memory-V2V: メモリを用いたビデオ間拡散モデルの拡張

Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

January 22, 2026
著者: Dohun Lee, Chun-Hao Paul Huang, Xuelin Chen, Jong Chul Ye, Duygu Ceylan, Hyeonho Jeong
cs.AI

要旨

最近の基盤的なビデオ間拡散モデルは、外観、動き、カメラ動作を変更することで、ユーザー提供のビデオ編集において印象的な結果を達成しています。しかし、現実世界のビデオ編集は、ユーザーが複数回のインタラクションを通じて結果を洗練させる反復的なプロセスであることが多くあります。このマルチターン設定において、現在のビデオエディタは連続的な編集間の相互一貫性を維持するのに苦戦しています。本研究では、マルチターンビデオ編集における相互一貫性の問題に初めて取り組み、既存のビデオ間モデルに明示的メモリを組み込んだシンプルかつ効果的なフレームワークであるMemory-V2Vを提案します。過去に編集されたビデオの外部キャッシュを活用し、Memory-V2Vは正確な検索と動的トークン化戦略を用いて、現在の編集ステップを過去の結果に条件付けします。さらに冗長性と計算オーバーヘッドを軽減するため、DiTバックボーン内に学習可能なトークン圧縮器を提案し、必須の視覚的手がかりを保持しながら冗長な条件付けトークンを圧縮することで、全体で30%の高速化を実現します。Memory-V2Vを、ビデオ新規視点合成やテキスト条件付き長尺ビデオ編集を含む挑戦的なタスクで検証しました。大規模な実験により、Memory-V2Vが最小限の計算オーバーヘッドで大幅に相互一貫性の高いビデオを生成し、最先端のベースラインと比較してタスク固有の性能を維持あるいは向上させることを示しています。プロジェクトページ: https://dohunlee1.github.io/MemoryV2V
English
Recent foundational video-to-video diffusion models have achieved impressive results in editing user provided videos by modifying appearance, motion, or camera movement. However, real-world video editing is often an iterative process, where users refine results across multiple rounds of interaction. In this multi-turn setting, current video editors struggle to maintain cross-consistency across sequential edits. In this work, we tackle, for the first time, the problem of cross-consistency in multi-turn video editing and introduce Memory-V2V, a simple, yet effective framework that augments existing video-to-video models with explicit memory. Given an external cache of previously edited videos, Memory-V2V employs accurate retrieval and dynamic tokenization strategies to condition the current editing step on prior results. To further mitigate redundancy and computational overhead, we propose a learnable token compressor within the DiT backbone that compresses redundant conditioning tokens while preserving essential visual cues, achieving an overall speedup of 30%. We validate Memory-V2V on challenging tasks including video novel view synthesis and text-conditioned long video editing. Extensive experiments show that Memory-V2V produces videos that are significantly more cross-consistent with minimal computational overhead, while maintaining or even improving task-specific performance over state-of-the-art baselines. Project page: https://dohunlee1.github.io/MemoryV2V
PDF181January 27, 2026