VidToMe: Fusión de Tokens de Video para Edición de Video Zero-Shot
VidToMe: Video Token Merging for Zero-Shot Video Editing
December 17, 2023
Autores: Xirui Li, Chao Ma, Xiaokang Yang, Ming-Hsuan Yang
cs.AI
Resumen
Los modelos de difusión han logrado avances significativos en la generación de imágenes de alta calidad, pero su aplicación a la generación de videos ha seguido siendo un desafío debido a la complejidad del movimiento temporal. La edición de videos en modo zero-shot ofrece una solución al utilizar modelos de difusión de imágenes preentrenados para transformar videos fuente en nuevos videos. Sin embargo, los métodos existentes tienen dificultades para mantener una consistencia temporal estricta y un consumo eficiente de memoria. En este trabajo, proponemos un enfoque novedoso para mejorar la consistencia temporal en videos generados mediante la fusión de tokens de autoatención entre fotogramas. Al alinear y comprimir tokens temporalmente redundantes entre fotogramas, nuestro método mejora la coherencia temporal y reduce el consumo de memoria en los cálculos de autoatención. La estrategia de fusión empareja y alinea los tokens según la correspondencia temporal entre fotogramas, facilitando una consistencia temporal natural en los fotogramas generados. Para manejar la complejidad del procesamiento de videos, dividimos los videos en segmentos y desarrollamos la fusión local de tokens dentro de los segmentos y la fusión global de tokens entre segmentos, asegurando tanto la continuidad a corto plazo como la consistencia de contenido a largo plazo. Nuestro enfoque de edición de videos extiende de manera fluida los avances en la edición de imágenes a la edición de videos, obteniendo resultados favorables en consistencia temporal sobre los métodos más avanzados.
English
Diffusion models have made significant advances in generating high-quality
images, but their application to video generation has remained challenging due
to the complexity of temporal motion. Zero-shot video editing offers a solution
by utilizing pre-trained image diffusion models to translate source videos into
new ones. Nevertheless, existing methods struggle to maintain strict temporal
consistency and efficient memory consumption. In this work, we propose a novel
approach to enhance temporal consistency in generated videos by merging
self-attention tokens across frames. By aligning and compressing temporally
redundant tokens across frames, our method improves temporal coherence and
reduces memory consumption in self-attention computations. The merging strategy
matches and aligns tokens according to the temporal correspondence between
frames, facilitating natural temporal consistency in generated video frames. To
manage the complexity of video processing, we divide videos into chunks and
develop intra-chunk local token merging and inter-chunk global token merging,
ensuring both short-term video continuity and long-term content consistency.
Our video editing approach seamlessly extends the advancements in image editing
to video editing, rendering favorable results in temporal consistency over
state-of-the-art methods.