ChatPaper.aiChatPaper

VMC: Video Motion Customisering met Temporele Aandacht Aanpassing voor Tekst-naar-Video Diffusiemodellen

VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models

December 1, 2023
Auteurs: Hyeonho Jeong, Geon Yeong Park, Jong Chul Ye
cs.AI

Samenvatting

Text-to-video diffusiemodellen hebben de videogeneratie aanzienlijk vooruitgebracht. Het aanpassen van deze modellen om video's met op maat gemaakte bewegingen te genereren, vormt echter een aanzienlijke uitdaging. Specifiek lopen ze tegen problemen aan bij (a) het nauwkeurig reproduceren van bewegingen uit een doelvideo, en (b) het creëren van diverse visuele variaties. Zo leiden eenvoudige uitbreidingen van methoden voor het aanpassen van statische afbeeldingen aan video vaak tot ingewikkelde verstrengelingen van uiterlijk en bewegingsdata. Om dit aan te pakken, presenteren wij hier het Video Motion Customization (VMC) framework, een nieuwe one-shot afstemmingsmethode ontworpen om tijdelijke aandachtslagen binnen videodiffusiemodellen aan te passen. Onze aanpak introduceert een nieuw bewegingsdistillatiedoel met behulp van restvectoren tussen opeenvolgende frames als bewegingsreferentie. Het diffusieproces behoudt vervolgens laagfrequente bewegingsbanen terwijl hoogfrequente bewegingsonafhankelijke ruis in de beeldruimte wordt verminderd. We valideren onze methode tegen state-of-the-art videogeneratieve modellen in diverse real-world bewegingen en contexten. Onze codes, data en de projectdemo zijn te vinden op https://video-motion-customization.github.io.
English
Text-to-video diffusion models have advanced video generation significantly. However, customizing these models to generate videos with tailored motions presents a substantial challenge. In specific, they encounter hurdles in (a) accurately reproducing motion from a target video, and (b) creating diverse visual variations. For example, straightforward extensions of static image customization methods to video often lead to intricate entanglements of appearance and motion data. To tackle this, here we present the Video Motion Customization (VMC) framework, a novel one-shot tuning approach crafted to adapt temporal attention layers within video diffusion models. Our approach introduces a novel motion distillation objective using residual vectors between consecutive frames as a motion reference. The diffusion process then preserves low-frequency motion trajectories while mitigating high-frequency motion-unrelated noise in image space. We validate our method against state-of-the-art video generative models across diverse real-world motions and contexts. Our codes, data and the project demo can be found at https://video-motion-customization.github.io
PDF393February 7, 2026