ChatPaper.aiChatPaper

Memory-V2V: Erweiterung von Video-zu-Video-Diffusionsmodellen mit Speicherfunktionalität

Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

January 22, 2026
papers.authors: Dohun Lee, Chun-Hao Paul Huang, Xuelin Chen, Jong Chul Ye, Duygu Ceylan, Hyeonho Jeong
cs.AI

papers.abstract

Aktuelle fundamentale Video-zu-Video-Diffusionsmodelle haben beeindruckende Ergebnisse bei der Bearbeitung von Nutzervideos durch Veränderung von Erscheinungsbild, Bewegung oder Kameraführung erzielt. In der Praxis ist die Videobearbeitung jedoch oft ein iterativer Prozess, bei dem Nutzer die Ergebnisse über mehrere Interaktionsrunden hinweg verfeinern. In diesem Mehrschritt-Szenario haben aktuelle Videoeditoren Schwierigkeiten, die Quer-Konsistenz über sequenzielle Bearbeitungsschritte hinweg aufrechtzuerhalten. In dieser Arbeit gehen wir erstmals das Problem der Quer-Konsistenz bei der Mehrschritt-Videobearbeitung an und stellen Memory-V2V vor – einen einfachen, aber effektiven Rahmen, der bestehende Video-zu-Video-Modelle mit explizitem Speicher erweitert. Auf Basis eines externen Caches zuvor bearbeiteter Videos nutzt Memory-V2V präzise Retrieval- und dynamische Tokenisierungsstrategien, um den aktuellen Bearbeitungsschritt an vorherigen Ergebnissen zu konditionieren. Um Redundanzen und Rechenaufwand weiter zu reduzieren, schlagen wir einen lernbaren Token-Kompressor innerhalb der DiT-Architektur vor, der redundante Konditionierungstoken komprimiert und dabei essentielle visuelle Hinweise bewahrt, was eine Gesamtbeschleunigung von 30 % erreicht. Wir validieren Memory-V2V anspruchsvollen Aufgaben wie Video-Novel-View-Synthese und textkonditionierter Langvideo-Bearbeitung. Umfangreiche Experimente zeigen, dass Memory-V2V Videos erzeugt, die bei minimalem Rechenaufwand signifikant querkonsistenter sind, während die aufgabenspezifische Leistung state-of-the-art-Baselines beibehalten oder sogar übertroffen wird. Projektseite: https://dohunlee1.github.io/MemoryV2V
English
Recent foundational video-to-video diffusion models have achieved impressive results in editing user provided videos by modifying appearance, motion, or camera movement. However, real-world video editing is often an iterative process, where users refine results across multiple rounds of interaction. In this multi-turn setting, current video editors struggle to maintain cross-consistency across sequential edits. In this work, we tackle, for the first time, the problem of cross-consistency in multi-turn video editing and introduce Memory-V2V, a simple, yet effective framework that augments existing video-to-video models with explicit memory. Given an external cache of previously edited videos, Memory-V2V employs accurate retrieval and dynamic tokenization strategies to condition the current editing step on prior results. To further mitigate redundancy and computational overhead, we propose a learnable token compressor within the DiT backbone that compresses redundant conditioning tokens while preserving essential visual cues, achieving an overall speedup of 30%. We validate Memory-V2V on challenging tasks including video novel view synthesis and text-conditioned long video editing. Extensive experiments show that Memory-V2V produces videos that are significantly more cross-consistent with minimal computational overhead, while maintaining or even improving task-specific performance over state-of-the-art baselines. Project page: https://dohunlee1.github.io/MemoryV2V
PDF181January 27, 2026