ChatPaper.aiChatPaper

VMC: Personalização de Movimento em Vídeo usando Adaptação de Atenção Temporal para Modelos de Difusão Texto-para-Vídeo

VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models

December 1, 2023
Autores: Hyeonho Jeong, Geon Yeong Park, Jong Chul Ye
cs.AI

Resumo

Modelos de difusão de texto para vídeo avançaram significativamente a geração de vídeos. No entanto, personalizar esses modelos para gerar vídeos com movimentos específicos apresenta um desafio substancial. Especificamente, eles enfrentam dificuldades em (a) reproduzir com precisão o movimento de um vídeo alvo e (b) criar variações visuais diversas. Por exemplo, extensões diretas de métodos de personalização de imagens estáticas para vídeo frequentemente resultam em emaranhados complexos de dados de aparência e movimento. Para enfrentar esse problema, apresentamos aqui o framework Video Motion Customization (VMC), uma abordagem inovadora de ajuste único projetada para adaptar camadas de atenção temporal em modelos de difusão de vídeo. Nossa abordagem introduz um novo objetivo de destilação de movimento utilizando vetores residuais entre quadros consecutivos como referência de movimento. O processo de difusão preserva trajetórias de movimento de baixa frequência enquanto mitiga ruídos de alta frequência não relacionados ao movimento no espaço de imagem. Validamos nosso método contra modelos generativos de vídeo state-of-the-art em diversos movimentos e contextos do mundo real. Nossos códigos, dados e a demonstração do projeto podem ser encontrados em https://video-motion-customization.github.io.
English
Text-to-video diffusion models have advanced video generation significantly. However, customizing these models to generate videos with tailored motions presents a substantial challenge. In specific, they encounter hurdles in (a) accurately reproducing motion from a target video, and (b) creating diverse visual variations. For example, straightforward extensions of static image customization methods to video often lead to intricate entanglements of appearance and motion data. To tackle this, here we present the Video Motion Customization (VMC) framework, a novel one-shot tuning approach crafted to adapt temporal attention layers within video diffusion models. Our approach introduces a novel motion distillation objective using residual vectors between consecutive frames as a motion reference. The diffusion process then preserves low-frequency motion trajectories while mitigating high-frequency motion-unrelated noise in image space. We validate our method against state-of-the-art video generative models across diverse real-world motions and contexts. Our codes, data and the project demo can be found at https://video-motion-customization.github.io
PDF393February 7, 2026