Memory-V2V: Aprimorando Modelos de Difusão Vídeo-para-Vídeo com Memória
Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory
January 22, 2026
Autores: Dohun Lee, Chun-Hao Paul Huang, Xuelin Chen, Jong Chul Ye, Duygu Ceylan, Hyeonho Jeong
cs.AI
Resumo
Modelos recentes de difusão vídeo-a-vídeo de base alcançaram resultados impressionantes na edição de vídeos fornecidos pelos usuários, modificando aparência, movimento ou deslocamento da câmara. No entanto, a edição de vídeo no mundo real é frequentemente um processo iterativo, no qual os utilizadores refinam os resultados ao longo de múltiplas rondas de interação. Neste cenário de múltiplos turnos, os editores de vídeo atuais lutam para manter a consistência cruzada entre edições sequenciais. Neste trabalho, abordamos, pela primeira vez, o problema da consistência cruzada na edição de vídeo multi-turno e introduzimos o Memory-V2V, uma estrutura simples, mas eficaz, que aumenta os modelos vídeo-a-vídeo existentes com memória explícita. Dada uma cache externa de vídeos editados anteriormente, o Memory-V2V emprega estratégias de recuperação precisa e tokenização dinâmica para condicionar a etapa de edição atual com base em resultados anteriores. Para mitigar ainda mais a redundância e a sobrecarga computacional, propomos um compressor de tokens treinável dentro da arquitetura DiT que comprime tokens de condicionamento redundantes, preservando pistas visuais essenciais, alcançando uma aceleração geral de 30%. Validamos o Memory-V2V em tarefas desafiadoras, incluindo síntese de nova perspetiva de vídeo e edição de vídeos longos com condicionamento textual. Experiências extensivas mostram que o Memory-V2V produz vídeos significativamente mais consistentes cruzadamente com sobrecarga computacional mínima, mantendo ou mesmo melhorando o desempenho específico da tarefa em relação aos métodos state-of-the-art. Página do projeto: https://dohunlee1.github.io/MemoryV2V
English
Recent foundational video-to-video diffusion models have achieved impressive results in editing user provided videos by modifying appearance, motion, or camera movement. However, real-world video editing is often an iterative process, where users refine results across multiple rounds of interaction. In this multi-turn setting, current video editors struggle to maintain cross-consistency across sequential edits. In this work, we tackle, for the first time, the problem of cross-consistency in multi-turn video editing and introduce Memory-V2V, a simple, yet effective framework that augments existing video-to-video models with explicit memory. Given an external cache of previously edited videos, Memory-V2V employs accurate retrieval and dynamic tokenization strategies to condition the current editing step on prior results. To further mitigate redundancy and computational overhead, we propose a learnable token compressor within the DiT backbone that compresses redundant conditioning tokens while preserving essential visual cues, achieving an overall speedup of 30%. We validate Memory-V2V on challenging tasks including video novel view synthesis and text-conditioned long video editing. Extensive experiments show that Memory-V2V produces videos that are significantly more cross-consistent with minimal computational overhead, while maintaining or even improving task-specific performance over state-of-the-art baselines. Project page: https://dohunlee1.github.io/MemoryV2V