Memory-V2V: Potenziamento dei Modelli di Diffusione Video-to-Video con Memoria

Abstract

I recenti modelli diffusivi video-to-video fondamentali hanno ottenuto risultati impressionanti nell'editing di video forniti dall'utente, modificando l'aspetto, il movimento o lo spostamento della telecamera. Tuttavia, l'editing video nel mondo reale è spesso un processo iterativo, in cui gli utenti affinano i risultati attraverso più round di interazione. In questo contesto multi-turn, gli editor video attuali faticano a mantenere la cross-consistenza tra le modifiche sequenziali. In questo lavoro, affrontiamo per la prima volta il problema della cross-consistenza nell'editing video multi-turn e introduciamo Memory-V2V, un framework semplice ma efficace che potenzia i modelli video-to-video esistenti con una memoria esplicita. Dato una cache esterna di video precedentemente modificati, Memory-V2V impiega strategie di retrieval accurato e tokenizzazione dinamica per condizionare l'attuale fase di editing sui risultati precedenti. Per mitigare ulteriormente la ridondanza e il sovraccarico computazionale, proponiamo un compressore di token apprendibile all'interno del backbone DiT che comprime i token di condizionamento ridondanti preservando al contempo gli indizi visivi essenziali, ottenendo un'accelerazione complessiva del 30%. Validiamo Memory-V2V su compiti impegnativi, inclusi la sintesi di nuove viste video e l'editing di video lunghi condizionato da testo. Esperimenti estensivi dimostrano che Memory-V2V produce video significativamente più cross-consistenti con un sovraccarico computazionale minimo, mantenendo o addirittura migliorando le prestazioni specifiche del compito rispetto ai baseline state-of-the-art. Pagina del progetto: https://dohunlee1.github.io/MemoryV2V

English

Recent foundational video-to-video diffusion models have achieved impressive results in editing user provided videos by modifying appearance, motion, or camera movement. However, real-world video editing is often an iterative process, where users refine results across multiple rounds of interaction. In this multi-turn setting, current video editors struggle to maintain cross-consistency across sequential edits. In this work, we tackle, for the first time, the problem of cross-consistency in multi-turn video editing and introduce Memory-V2V, a simple, yet effective framework that augments existing video-to-video models with explicit memory. Given an external cache of previously edited videos, Memory-V2V employs accurate retrieval and dynamic tokenization strategies to condition the current editing step on prior results. To further mitigate redundancy and computational overhead, we propose a learnable token compressor within the DiT backbone that compresses redundant conditioning tokens while preserving essential visual cues, achieving an overall speedup of 30%. We validate Memory-V2V on challenging tasks including video novel view synthesis and text-conditioned long video editing. Extensive experiments show that Memory-V2V produces videos that are significantly more cross-consistent with minimal computational overhead, while maintaining or even improving task-specific performance over state-of-the-art baselines. Project page: https://dohunlee1.github.io/MemoryV2V

Memory-V2V: Potenziamento dei Modelli di Diffusione Video-to-Video con Memoria

Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

Abstract

Support