VidToMe: Video Token Samenvoeging voor Zero-Shot Videobewerking
VidToMe: Video Token Merging for Zero-Shot Video Editing
December 17, 2023
Auteurs: Xirui Li, Chao Ma, Xiaokang Yang, Ming-Hsuan Yang
cs.AI
Samenvatting
Diffusiemodellen hebben aanzienlijke vooruitgang geboekt in het genereren van hoogwaardige afbeeldingen, maar hun toepassing op videogeneratie blijft uitdagend vanwege de complexiteit van temporele beweging. Zero-shot videobewerking biedt een oplossing door vooraf getrainde afbeeldingsdiffusiemodellen te gebruiken om bronvideo's om te zetten in nieuwe video's. Toch hebben bestaande methoden moeite om strikte temporele consistentie en efficiënt geheugengebruik te behouden. In dit werk stellen we een nieuwe aanpak voor om de temporele consistentie in gegenereerde video's te verbeteren door self-attention tokens over frames heen samen te voegen. Door temporeel redundante tokens over frames heen uit te lijnen en te comprimeren, verbetert onze methode de temporele samenhang en vermindert het geheugengebruik in self-attention berekeningen. De samenvoegstrategie matcht en lijn tokens uit op basis van de temporele correspondentie tussen frames, wat natuurlijke temporele consistentie in gegenereerde videoframes bevordert. Om de complexiteit van videoverwerking te beheersen, verdelen we video's in segmenten en ontwikkelen we intra-segment lokale token merging en inter-segment globale token merging, waardoor zowel kortetermijnvideocontinuïteit als langetermijninhoudsconsistentie wordt gewaarborgd. Onze videobewerkingsaanpak breidt de vooruitgang in afbeeldingsbewerking naadloos uit naar videobewerking, wat gunstige resultaten oplevert in temporele consistentie vergeleken met state-of-the-art methoden.
English
Diffusion models have made significant advances in generating high-quality
images, but their application to video generation has remained challenging due
to the complexity of temporal motion. Zero-shot video editing offers a solution
by utilizing pre-trained image diffusion models to translate source videos into
new ones. Nevertheless, existing methods struggle to maintain strict temporal
consistency and efficient memory consumption. In this work, we propose a novel
approach to enhance temporal consistency in generated videos by merging
self-attention tokens across frames. By aligning and compressing temporally
redundant tokens across frames, our method improves temporal coherence and
reduces memory consumption in self-attention computations. The merging strategy
matches and aligns tokens according to the temporal correspondence between
frames, facilitating natural temporal consistency in generated video frames. To
manage the complexity of video processing, we divide videos into chunks and
develop intra-chunk local token merging and inter-chunk global token merging,
ensuring both short-term video continuity and long-term content consistency.
Our video editing approach seamlessly extends the advancements in image editing
to video editing, rendering favorable results in temporal consistency over
state-of-the-art methods.