Memory-V2V : Augmentation des modèles de diffusion vidéo-à-vidéo par une mémoire

Résumé

Les modèles de diffusion vidéo-à-vidéo récents ont obtenu des résultats impressionnants dans l'édition de vidéos fournies par l'utilisateur en modifiant l'apparence, le mouvement ou le mouvement de la caméra. Cependant, l'édition vidéo dans le monde réel est souvent un processus itératif, où les utilisateurs affinent les résultats sur plusieurs rounds d'interaction. Dans ce cadre multi-tours, les éditeurs vidéo actuels peinent à maintenir une cohérence transversale entre les modifications séquentielles. Dans ce travail, nous abordons pour la première fois le problème de la cohérence transversale dans l'édition vidéo multi-tours et présentons Memory-V2V, un cadre simple mais efficace qui augmente les modèles vidéo-à-vidéo existants avec une mémoire explicite. Étant donné un cache externe de vidéos précédemment éditées, Memory-V2V utilise des stratégies de récupération précise et de tokenisation dynamique pour conditionner l'étape d'édition actuelle sur les résultats antérieurs. Pour further atténuer la redondance et la surcharge computationnelle, nous proposons un compresseur de tokens apprenable intégré à l'architecture DiT qui compresse les tokens de conditionnement redondants tout en préservant les indices visuels essentiels, obtenant une accélération globale de 30 %. Nous validons Memory-V2V sur des tâches complexes incluant la synthèse de nouvelles vues vidéo et l'édition de vidéos longues conditionnées par texte. Des expériences approfondies montrent que Memory-V2V produit des vidéos significativement plus cohérentes transversalement avec une surcharge computationnelle minimale, tout en maintenant ou même en améliorant les performances spécifiques aux tâches par rapport aux meilleures méthodes de référence. Page du projet : https://dohunlee1.github.io/MemoryV2V

English

Recent foundational video-to-video diffusion models have achieved impressive results in editing user provided videos by modifying appearance, motion, or camera movement. However, real-world video editing is often an iterative process, where users refine results across multiple rounds of interaction. In this multi-turn setting, current video editors struggle to maintain cross-consistency across sequential edits. In this work, we tackle, for the first time, the problem of cross-consistency in multi-turn video editing and introduce Memory-V2V, a simple, yet effective framework that augments existing video-to-video models with explicit memory. Given an external cache of previously edited videos, Memory-V2V employs accurate retrieval and dynamic tokenization strategies to condition the current editing step on prior results. To further mitigate redundancy and computational overhead, we propose a learnable token compressor within the DiT backbone that compresses redundant conditioning tokens while preserving essential visual cues, achieving an overall speedup of 30%. We validate Memory-V2V on challenging tasks including video novel view synthesis and text-conditioned long video editing. Extensive experiments show that Memory-V2V produces videos that are significantly more cross-consistent with minimal computational overhead, while maintaining or even improving task-specific performance over state-of-the-art baselines. Project page: https://dohunlee1.github.io/MemoryV2V

Memory-V2V : Augmentation des modèles de diffusion vidéo-à-vidéo par une mémoire

Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

Résumé

Support