Memory-V2V: Potenciando Modelos de Difusión Video-a-Video con Memoria
Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory
January 22, 2026
Autores: Dohun Lee, Chun-Hao Paul Huang, Xuelin Chen, Jong Chul Ye, Duygu Ceylan, Hyeonho Jeong
cs.AI
Resumen
Los modelos de difusión recientes de video a video han logrado resultados impresionantes en la edición de videos proporcionados por usuarios mediante la modificación de apariencia, movimiento o desplazamiento de cámara. Sin embargo, la edición de video en el mundo real suele ser un proceso iterativo, donde los usuarios refinan los resultados a través de múltiples rondas de interacción. En este entorno de múltiples iteraciones, los editores de video actuales tienen dificultades para mantener la coherencia transversal entre ediciones secuenciales. En este trabajo, abordamos por primera vez el problema de la coherencia transversal en la edición de video multi-iteración e introducimos Memory-V2V, un marco simple pero efectivo que aumenta los modelos existentes de video a video con memoria explícita. Dada una caché externa de videos editados previamente, Memory-V2V emplea estrategias de recuperación precisa y tokenización dinámica para condicionar el paso de edición actual en función de resultados anteriores. Para mitigar aún más la redundancia y la sobrecarga computacional, proponemos un compresor de tokens entrenable dentro del backbone DiT que comprime los tokens de condicionamiento redundantes mientras preserva pistas visuales esenciales, logrando una aceleración general del 30%. Validamos Memory-V2V en tareas desafiantes que incluyen síntesis de nueva perspectiva de video y edición de video largo condicionada por texto. Experimentos exhaustivos demuestran que Memory-V2V produce videos significativamente más coherentes transversalmente con una sobrecarga computacional mínima, manteniendo o incluso mejorando el rendimiento específico de la tarea respecto a los métodos de vanguardia. Página del proyecto: https://dohunlee1.github.io/MemoryV2V
English
Recent foundational video-to-video diffusion models have achieved impressive results in editing user provided videos by modifying appearance, motion, or camera movement. However, real-world video editing is often an iterative process, where users refine results across multiple rounds of interaction. In this multi-turn setting, current video editors struggle to maintain cross-consistency across sequential edits. In this work, we tackle, for the first time, the problem of cross-consistency in multi-turn video editing and introduce Memory-V2V, a simple, yet effective framework that augments existing video-to-video models with explicit memory. Given an external cache of previously edited videos, Memory-V2V employs accurate retrieval and dynamic tokenization strategies to condition the current editing step on prior results. To further mitigate redundancy and computational overhead, we propose a learnable token compressor within the DiT backbone that compresses redundant conditioning tokens while preserving essential visual cues, achieving an overall speedup of 30%. We validate Memory-V2V on challenging tasks including video novel view synthesis and text-conditioned long video editing. Extensive experiments show that Memory-V2V produces videos that are significantly more cross-consistent with minimal computational overhead, while maintaining or even improving task-specific performance over state-of-the-art baselines. Project page: https://dohunlee1.github.io/MemoryV2V