VidToMe: Fusione di Token Video per l'Editing Video Zero-Shot
VidToMe: Video Token Merging for Zero-Shot Video Editing
December 17, 2023
Autori: Xirui Li, Chao Ma, Xiaokang Yang, Ming-Hsuan Yang
cs.AI
Abstract
I modelli di diffusione hanno compiuto progressi significativi nella generazione di immagini di alta qualità, ma la loro applicazione alla generazione di video è rimasta impegnativa a causa della complessità del movimento temporale. L'editing video zero-shot offre una soluzione sfruttando modelli di diffusione di immagini pre-addestrati per tradurre video sorgente in nuovi video. Tuttavia, i metodi esistenti faticano a mantenere una rigorosa coerenza temporale e un consumo efficiente della memoria. In questo lavoro, proponiamo un approccio innovativo per migliorare la coerenza temporale nei video generati unendo i token di self-attention tra i frame. Allineando e comprimendo i token temporalmente ridondanti tra i frame, il nostro metodo migliora la coerenza temporale e riduce il consumo di memoria nei calcoli di self-attention. La strategia di unione abbina e allinea i token in base alla corrispondenza temporale tra i frame, facilitando una coerenza temporale naturale nei frame video generati. Per gestire la complessità dell'elaborazione video, dividiamo i video in segmenti e sviluppiamo un'unione locale dei token all'interno dei segmenti e un'unione globale dei token tra i segmenti, garantendo sia la continuità video a breve termine che la coerenza del contenuto a lungo termine. Il nostro approccio all'editing video estende senza soluzione di continuità i progressi nell'editing delle immagini all'editing video, ottenendo risultati favorevoli in termini di coerenza temporale rispetto ai metodi all'avanguardia.
English
Diffusion models have made significant advances in generating high-quality
images, but their application to video generation has remained challenging due
to the complexity of temporal motion. Zero-shot video editing offers a solution
by utilizing pre-trained image diffusion models to translate source videos into
new ones. Nevertheless, existing methods struggle to maintain strict temporal
consistency and efficient memory consumption. In this work, we propose a novel
approach to enhance temporal consistency in generated videos by merging
self-attention tokens across frames. By aligning and compressing temporally
redundant tokens across frames, our method improves temporal coherence and
reduces memory consumption in self-attention computations. The merging strategy
matches and aligns tokens according to the temporal correspondence between
frames, facilitating natural temporal consistency in generated video frames. To
manage the complexity of video processing, we divide videos into chunks and
develop intra-chunk local token merging and inter-chunk global token merging,
ensuring both short-term video continuity and long-term content consistency.
Our video editing approach seamlessly extends the advancements in image editing
to video editing, rendering favorable results in temporal consistency over
state-of-the-art methods.