ChatPaper.aiChatPaper

Memory-V2V: 메모리 기반 비디오 간 확산 모델 향상

Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

January 22, 2026
저자: Dohun Lee, Chun-Hao Paul Huang, Xuelin Chen, Jong Chul Ye, Duygu Ceylan, Hyeonho Jeong
cs.AI

초록

최근의 기초적인 비디오-투-비디오 확산 모델들은 외관, 동작 또는 카메라 이동을 수정하여 사용자가 제공한 비디오 편집에서 인상적인 결과를 달성했습니다. 그러나 실제 세계의 비디오 편집은 사용자가 여러 차례의 상호작용을 통해 결과를 다듬는 반복적인 과정인 경우가 많습니다. 이러한 다중 회차 설정에서 기존 비디오 편집기는 순차적 편집 간의 교차 일관성을 유지하는 데 어려움을 겪습니다. 본 연구에서는 다중 회차 비디오 편집에서의 교차 일관성 문제를 최초로 다루며, 기존 비디오-투-비디오 모델에 명시적 메모리를 추가하는 간단하면서 효과적인 프레임워크인 Memory-V2V를 소개합니다. 이전에 편집된 비디오들의 외부 캐시가 주어지면, Memory-V2V는 정확한 검색 및 동적 토큰화 전략을 사용하여 현재 편집 단계를 이전 결과에 기반하도록 합니다. 중복성과 계산 오버헤드를 추가로 완화하기 위해, 우리는 DiT 백본 내에서 학습 가능한 토큰 압축기를 제안합니다. 이 압축기는 필수적인 시각적 단서를 보존하면서 중복된 조건 설정 토큰을 압축하여 전체적으로 30%의 속도 향상을 달성합니다. 우리는 Memory-V2V를 비디오 신시점 합성 및 텍스트 조건 장면 비디오 편집을 포함한 도전적인 과제에서 검증합니다. 광범위한 실험을 통해 Memory-V2V가 최소한의 계산 오버헤드로 훨씬 더 높은 교차 일관성을 가진 비디오를 생성하며, 동시에 최첨단 기준 모델들에 비해 과제별 성능을 유지하거나 오히려 향상시킴을 보여줍니다. 프로젝트 페이지: https://dohunlee1.github.io/MemoryV2V
English
Recent foundational video-to-video diffusion models have achieved impressive results in editing user provided videos by modifying appearance, motion, or camera movement. However, real-world video editing is often an iterative process, where users refine results across multiple rounds of interaction. In this multi-turn setting, current video editors struggle to maintain cross-consistency across sequential edits. In this work, we tackle, for the first time, the problem of cross-consistency in multi-turn video editing and introduce Memory-V2V, a simple, yet effective framework that augments existing video-to-video models with explicit memory. Given an external cache of previously edited videos, Memory-V2V employs accurate retrieval and dynamic tokenization strategies to condition the current editing step on prior results. To further mitigate redundancy and computational overhead, we propose a learnable token compressor within the DiT backbone that compresses redundant conditioning tokens while preserving essential visual cues, achieving an overall speedup of 30%. We validate Memory-V2V on challenging tasks including video novel view synthesis and text-conditioned long video editing. Extensive experiments show that Memory-V2V produces videos that are significantly more cross-consistent with minimal computational overhead, while maintaining or even improving task-specific performance over state-of-the-art baselines. Project page: https://dohunlee1.github.io/MemoryV2V
PDF181January 27, 2026