ChatPaper.aiChatPaper

VidToMe: Fusão de Tokens de Vídeo para Edição de Vídeo Zero-Shot

VidToMe: Video Token Merging for Zero-Shot Video Editing

December 17, 2023
Autores: Xirui Li, Chao Ma, Xiaokang Yang, Ming-Hsuan Yang
cs.AI

Resumo

Os modelos de difusão têm feito avanços significativos na geração de imagens de alta qualidade, mas sua aplicação na geração de vídeos tem se mostrado desafiadora devido à complexidade do movimento temporal. A edição de vídeo zero-shot oferece uma solução ao utilizar modelos de difusão de imagens pré-treinados para traduzir vídeos originais em novos vídeos. No entanto, os métodos existentes lutam para manter uma consistência temporal rigorosa e um consumo eficiente de memória. Neste trabalho, propomos uma nova abordagem para melhorar a consistência temporal em vídeos gerados, mesclando tokens de autoatenção entre quadros. Ao alinhar e comprimir tokens temporalmente redundantes entre quadros, nosso método melhora a coerência temporal e reduz o consumo de memória nos cálculos de autoatenção. A estratégia de mesclagem combina e alinha os tokens de acordo com a correspondência temporal entre os quadros, facilitando uma consistência temporal natural nos quadros de vídeo gerados. Para gerenciar a complexidade do processamento de vídeo, dividimos os vídeos em segmentos e desenvolvemos a mesclagem local de tokens intra-segmento e a mesclagem global de tokens inter-segmento, garantindo tanto a continuidade de curto prazo do vídeo quanto a consistência de conteúdo de longo prazo. Nossa abordagem de edição de vídeo estende de forma contínua os avanços na edição de imagens para a edição de vídeo, produzindo resultados favoráveis em consistência temporal em comparação com os métodos mais avançados atuais.
English
Diffusion models have made significant advances in generating high-quality images, but their application to video generation has remained challenging due to the complexity of temporal motion. Zero-shot video editing offers a solution by utilizing pre-trained image diffusion models to translate source videos into new ones. Nevertheless, existing methods struggle to maintain strict temporal consistency and efficient memory consumption. In this work, we propose a novel approach to enhance temporal consistency in generated videos by merging self-attention tokens across frames. By aligning and compressing temporally redundant tokens across frames, our method improves temporal coherence and reduces memory consumption in self-attention computations. The merging strategy matches and aligns tokens according to the temporal correspondence between frames, facilitating natural temporal consistency in generated video frames. To manage the complexity of video processing, we divide videos into chunks and develop intra-chunk local token merging and inter-chunk global token merging, ensuring both short-term video continuity and long-term content consistency. Our video editing approach seamlessly extends the advancements in image editing to video editing, rendering favorable results in temporal consistency over state-of-the-art methods.
PDF112February 11, 2026