VidToMe : Fusion de tokens vidéo pour l'édition vidéo zero-shot

papers.abstract

Les modèles de diffusion ont réalisé des avancées significatives dans la génération d'images de haute qualité, mais leur application à la génération de vidéos reste difficile en raison de la complexité du mouvement temporel. L'édition de vidéos en zero-shot propose une solution en utilisant des modèles de diffusion d'images pré-entraînés pour transformer des vidéos sources en de nouvelles vidéos. Cependant, les méthodes existantes peinent à maintenir une cohérence temporelle stricte et une consommation de mémoire efficace. Dans ce travail, nous proposons une nouvelle approche pour améliorer la cohérence temporelle dans les vidéos générées en fusionnant les tokens d'auto-attention entre les images. En alignant et en compressant les tokens redondants temporellement entre les images, notre méthode améliore la cohérence temporelle et réduit la consommation de mémoire dans les calculs d'auto-attention. La stratégie de fusion associe et aligne les tokens en fonction de la correspondance temporelle entre les images, facilitant ainsi une cohérence temporelle naturelle dans les images vidéo générées. Pour gérer la complexité du traitement vidéo, nous divisons les vidéos en segments et développons une fusion locale des tokens intra-segment et une fusion globale des tokens inter-segments, assurant à la fois la continuité à court terme de la vidéo et la cohérence du contenu à long terme. Notre approche d'édition vidéo étend de manière transparente les avancées de l'édition d'images à l'édition vidéo, produisant des résultats favorables en termes de cohérence temporelle par rapport aux méthodes de pointe.

English

Diffusion models have made significant advances in generating high-quality images, but their application to video generation has remained challenging due to the complexity of temporal motion. Zero-shot video editing offers a solution by utilizing pre-trained image diffusion models to translate source videos into new ones. Nevertheless, existing methods struggle to maintain strict temporal consistency and efficient memory consumption. In this work, we propose a novel approach to enhance temporal consistency in generated videos by merging self-attention tokens across frames. By aligning and compressing temporally redundant tokens across frames, our method improves temporal coherence and reduces memory consumption in self-attention computations. The merging strategy matches and aligns tokens according to the temporal correspondence between frames, facilitating natural temporal consistency in generated video frames. To manage the complexity of video processing, we divide videos into chunks and develop intra-chunk local token merging and inter-chunk global token merging, ensuring both short-term video continuity and long-term content consistency. Our video editing approach seamlessly extends the advancements in image editing to video editing, rendering favorable results in temporal consistency over state-of-the-art methods.

VidToMe : Fusion de tokens vidéo pour l'édition vidéo zero-shot

VidToMe: Video Token Merging for Zero-Shot Video Editing

papers.abstract

Support