VidToMe: Video-Token-Zusammenführung für Zero-Shot-Videobearbeitung
VidToMe: Video Token Merging for Zero-Shot Video Editing
December 17, 2023
Autoren: Xirui Li, Chao Ma, Xiaokang Yang, Ming-Hsuan Yang
cs.AI
Zusammenfassung
Diffusionsmodelle haben bedeutende Fortschritte bei der Erzeugung hochwertiger Bilder erzielt, doch ihre Anwendung auf die Videogenerierung bleibt aufgrund der Komplexität zeitlicher Bewegungen eine Herausforderung. Zero-Shot-Videobearbeitung bietet eine Lösung, indem vortrainierte Bild-Diffusionsmodelle genutzt werden, um Quellvideos in neue zu übersetzen. Dennoch haben bestehende Methoden Schwierigkeiten, strikte zeitliche Konsistenz und effizienten Speicherverbrauch aufrechtzuerhalten. In dieser Arbeit schlagen wir einen neuartigen Ansatz vor, um die zeitliche Konsistenz in generierten Videos zu verbessern, indem Self-Attention-Tokens über Frames hinweg zusammengeführt werden. Durch die Ausrichtung und Komprimierung zeitlich redundanter Tokens über Frames hinweg verbessert unsere Methode die zeitliche Kohärenz und reduziert den Speicherverbrauch bei Self-Attention-Berechnungen. Die Zusammenführungsstrategie passt Tokens entsprechend der zeitlichen Korrespondenz zwischen Frames an und erleichtert so eine natürliche zeitliche Konsistenz in den generierten Videoframes. Um die Komplexität der Videoverarbeitung zu bewältigen, teilen wir Videos in Abschnitte auf und entwickeln eine intra-Abschnitt-lokale Token-Zusammenführung sowie eine inter-Abschnitt-globale Token-Zusammenführung, wodurch sowohl kurzfristige Videokontinuität als auch langfristige Inhaltskonsistenz sichergestellt werden. Unser Ansatz zur Videobearbeitung erweitert nahtlos die Fortschritte in der Bildbearbeitung auf die Videobearbeitung und erzielt im Vergleich zu state-of-the-art-Methoden überzeugende Ergebnisse in Bezug auf die zeitliche Konsistenz.
English
Diffusion models have made significant advances in generating high-quality
images, but their application to video generation has remained challenging due
to the complexity of temporal motion. Zero-shot video editing offers a solution
by utilizing pre-trained image diffusion models to translate source videos into
new ones. Nevertheless, existing methods struggle to maintain strict temporal
consistency and efficient memory consumption. In this work, we propose a novel
approach to enhance temporal consistency in generated videos by merging
self-attention tokens across frames. By aligning and compressing temporally
redundant tokens across frames, our method improves temporal coherence and
reduces memory consumption in self-attention computations. The merging strategy
matches and aligns tokens according to the temporal correspondence between
frames, facilitating natural temporal consistency in generated video frames. To
manage the complexity of video processing, we divide videos into chunks and
develop intra-chunk local token merging and inter-chunk global token merging,
ensuring both short-term video continuity and long-term content consistency.
Our video editing approach seamlessly extends the advancements in image editing
to video editing, rendering favorable results in temporal consistency over
state-of-the-art methods.