VidToMe : Fusion de tokens vidéo pour l'édition vidéo zero-shot
VidToMe: Video Token Merging for Zero-Shot Video Editing
December 17, 2023
Auteurs: Xirui Li, Chao Ma, Xiaokang Yang, Ming-Hsuan Yang
cs.AI
Résumé
Les modèles de diffusion ont réalisé des avancées significatives dans la génération d'images de haute qualité, mais leur application à la génération de vidéos reste difficile en raison de la complexité du mouvement temporel. L'édition de vidéos en zero-shot propose une solution en utilisant des modèles de diffusion d'images pré-entraînés pour transformer des vidéos sources en de nouvelles vidéos. Cependant, les méthodes existantes peinent à maintenir une cohérence temporelle stricte et une consommation de mémoire efficace. Dans ce travail, nous proposons une nouvelle approche pour améliorer la cohérence temporelle dans les vidéos générées en fusionnant les tokens d'auto-attention entre les images. En alignant et en compressant les tokens redondants temporellement entre les images, notre méthode améliore la cohérence temporelle et réduit la consommation de mémoire dans les calculs d'auto-attention. La stratégie de fusion associe et aligne les tokens en fonction de la correspondance temporelle entre les images, facilitant ainsi une cohérence temporelle naturelle dans les images vidéo générées. Pour gérer la complexité du traitement vidéo, nous divisons les vidéos en segments et développons une fusion locale des tokens intra-segment et une fusion globale des tokens inter-segments, assurant à la fois la continuité à court terme de la vidéo et la cohérence du contenu à long terme. Notre approche d'édition vidéo étend de manière transparente les avancées de l'édition d'images à l'édition vidéo, produisant des résultats favorables en termes de cohérence temporelle par rapport aux méthodes de pointe.
English
Diffusion models have made significant advances in generating high-quality
images, but their application to video generation has remained challenging due
to the complexity of temporal motion. Zero-shot video editing offers a solution
by utilizing pre-trained image diffusion models to translate source videos into
new ones. Nevertheless, existing methods struggle to maintain strict temporal
consistency and efficient memory consumption. In this work, we propose a novel
approach to enhance temporal consistency in generated videos by merging
self-attention tokens across frames. By aligning and compressing temporally
redundant tokens across frames, our method improves temporal coherence and
reduces memory consumption in self-attention computations. The merging strategy
matches and aligns tokens according to the temporal correspondence between
frames, facilitating natural temporal consistency in generated video frames. To
manage the complexity of video processing, we divide videos into chunks and
develop intra-chunk local token merging and inter-chunk global token merging,
ensuring both short-term video continuity and long-term content consistency.
Our video editing approach seamlessly extends the advancements in image editing
to video editing, rendering favorable results in temporal consistency over
state-of-the-art methods.