Memory-V2V: Verbetering van Video-naar-Video Diffusiemodellen met Geheugen

Samenvatting

Recente fundamentele video-naar-video diffusiemodellen hebben indrukwekkende resultaten behaald bij het bewerken van door gebruikers aangeleverde video's door het uiterlijk, de beweging of camerabeweging aan te passen. Echter, videobewerking in de praktijk is vaak een iteratief proces, waarbij gebruikers resultaten verfijnen over meerdere interactierondes. In deze multi-turn setting hebben huidige videobewerkers moeite om cross-consistentie tussen opeenvolgende bewerkingen te behouden. In dit werk pakken we, voor het eerst, het probleem van cross-consistentie bij multi-turn videobewerking aan en introduceren Memory-V2V, een eenvoudig maar effectief framework dat bestaande video-naar-video modellen uitbreidt met expliciet geheugen. Gegeven een externe cache van eerder bewerkte video's, gebruikt Memory-V2V accurate retrieval- en dynamische tokenisatiestrategieën om de huidige bewerkingsstap te conditioneren op eerdere resultaten. Om redundantie en computationele overhead verder te verminderen, stellen we een leerbare tokencompressor voor binnen de DiT-backbone die redundante conditioneringstokens comprimeert terwijl essentiële visuele aanwijzingen behouden blijven, wat een algehele versnelling van 30% oplevert. We valideren Memory-V2V op uitdagende taken, waaronder novel view synthesis van video's en tekst-geconditioneerde bewerking van lange video's. Uitgebreide experimenten tonen aan dat Memory-V2V video's produceert die aanzienlijk cross-consistenter zijn met minimale computationele overhead, terwijl de taakspecifieke prestaties worden behouden of zelfs verbeterd ten opzichte van state-of-the-art baselines. Projectpagina: https://dohunlee1.github.io/MemoryV2V

English

Recent foundational video-to-video diffusion models have achieved impressive results in editing user provided videos by modifying appearance, motion, or camera movement. However, real-world video editing is often an iterative process, where users refine results across multiple rounds of interaction. In this multi-turn setting, current video editors struggle to maintain cross-consistency across sequential edits. In this work, we tackle, for the first time, the problem of cross-consistency in multi-turn video editing and introduce Memory-V2V, a simple, yet effective framework that augments existing video-to-video models with explicit memory. Given an external cache of previously edited videos, Memory-V2V employs accurate retrieval and dynamic tokenization strategies to condition the current editing step on prior results. To further mitigate redundancy and computational overhead, we propose a learnable token compressor within the DiT backbone that compresses redundant conditioning tokens while preserving essential visual cues, achieving an overall speedup of 30%. We validate Memory-V2V on challenging tasks including video novel view synthesis and text-conditioned long video editing. Extensive experiments show that Memory-V2V produces videos that are significantly more cross-consistent with minimal computational overhead, while maintaining or even improving task-specific performance over state-of-the-art baselines. Project page: https://dohunlee1.github.io/MemoryV2V

Memory-V2V: Verbetering van Video-naar-Video Diffusiemodellen met Geheugen

Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

Samenvatting

Support