ChatPaper.aiChatPaper

PermaVid: 分離コンテキストメモリによる編集間一貫動画生成

PermaVid: Consistent Video Generation Across Edits via Disentangled Context Memory

June 15, 2026
著者: Shuai Yang, Bingjie Gao, Ziwei Liu, Jiaqi Wang, Dahua Lin, Tong Wu
cs.AI

要旨

編集操作下での一貫した動画生成には持続性が必要である。編集によってシーンの外観やレイアウトが変更された後も、後続の生成結果が時間的および視点的に一貫性を保つことが求められる。しかし、既存のメモリ設計では、保存されたコンテキストが古くなったり無効になったりするため、このような変更後の長期的な一貫性を維持することが困難である。この問題に対処するため、我々はPermaVidを提案する。これは、空間コンテキストを意味的外観と幾何学的構造に分離するマルチモーダルコンテキストメモリに基づく新しいフレームワークであり、編集認識型のメモリ更新および検索戦略を組み合わせることで、メモリの進化を後続の観測と整合させる。具体的には、2つの相補的なメモリバンクを開発する。視覚的特徴を捉えつつ幾何学的情報を暗黙的に符号化するRGBコンテキストメモリと、意味から分離された幾何学的構造のみを保持する深度コンテキストメモリである。この設計に基づき、混合モダリティのメモリコンテキストから抽出された参照条件下でマルチモーダル特徴融合を実行する、メモリ誘導型動画生成モデルを導入する。実験により、本手法は編集後も長期的な意味的・構造的一貫性を強力に維持し、最先端手法を大幅に上回ることを実証する。
English
Consistent video generation under editing operations requires persistence: when edits modify scene appearance or layout, subsequent generations should remain coherent across time and viewpoints. However, existing memory designs struggle to maintain long-term consistency after such modifications, as stored contexts may become outdated or invalid. To address this, we propose PermaVid, a novel framework built upon a multi-modal context memory that disentangles spatial context into semantic appearance and geometric structure, together with an edit-aware memory update and retrieval strategy that keeps memory evolution aligned with subsequent observations. Specifically, we develop two complementary memory banks: an RGB context memory that captures appearance-aware observations while implicitly encoding geometry, and a depth context memory that preserves geometry-only structure disentangled from semantics. Building on this design, we introduce a memory-guided video generation model that performs multi-modal feature fusion under reference conditions drawn from mixed-modality memory contexts. Experiments demonstrate that our method maintains strong long-term semantic and structural consistency after edits, significantly outperforming state-of-the-art methods.