CustomCrafter: Gepersonaliseerde videogeneratie met behoud van beweging en conceptcompositievermogen
CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities
August 23, 2024
Auteurs: Tao Wu, Yong Zhang, Xintao Wang, Xianpan Zhou, Guangcong Zheng, Zhongang Qi, Ying Shan, Xi Li
cs.AI
Samenvatting
Gepersonaliseerde videogeneratie heeft als doel hoogwaardige video's te genereren die worden gestuurd door tekstprompts en referentiebeelden van het onderwerp. Omdat het echter alleen is getraind op statische beelden, verstoort het fine-tuningproces van onderwerpsleren de mogelijkheden van videodiffusiemodellen (VDM's) om concepten te combineren en bewegingen te genereren. Om deze mogelijkheden te herstellen, gebruiken sommige methoden aanvullende video's die vergelijkbaar zijn met de prompt om het model te fine-tunen of te sturen. Dit vereist frequente wijzigingen van sturende video's en zelfs her-tuning van het model bij het genereren van verschillende bewegingen, wat zeer onhandig is voor gebruikers. In dit artikel stellen we CustomCrafter voor, een nieuw framework dat de bewegingsgeneratie- en conceptcombinatiemogelijkheden van het model behoudt zonder aanvullende video's en fine-tuning voor herstel. Om de conceptcombinatiemogelijkheid te behouden, ontwerpen we een plug-and-play module om enkele parameters in VDM's bij te werken, waardoor het vermogen van het model om uiterlijke details vast te leggen en conceptcombinaties voor nieuwe onderwerpen te maken, wordt verbeterd. Voor bewegingsgeneratie hebben we geobserveerd dat VDM's de neiging hebben om de beweging van video's in de vroege fase van denoising te herstellen, terwijl ze zich in de latere fase richten op het herstel van onderwerpsdetails. Daarom stellen we de Dynamische Gewogen Video Sampling Strategie voor. Door de pluggability van onze onderwerpsleermodules te gebruiken, verminderen we de impact van deze module op bewegingsgeneratie in de vroege fase van denoising, waardoor het vermogen om bewegingen te genereren van VDM's behouden blijft. In de latere fase van denoising herstellen we deze module om de uiterlijke details van het gespecificeerde onderwerp te repareren, waardoor de trouw van het uiterlijk van het onderwerp wordt gewaarborgd. Experimentele resultaten tonen aan dat onze methode een significante verbetering laat zien in vergelijking met eerdere methoden.
English
Customized video generation aims to generate high-quality videos guided by
text prompts and subject's reference images. However, since it is only trained
on static images, the fine-tuning process of subject learning disrupts
abilities of video diffusion models (VDMs) to combine concepts and generate
motions. To restore these abilities, some methods use additional video similar
to the prompt to fine-tune or guide the model. This requires frequent changes
of guiding videos and even re-tuning of the model when generating different
motions, which is very inconvenient for users. In this paper, we propose
CustomCrafter, a novel framework that preserves the model's motion generation
and conceptual combination abilities without additional video and fine-tuning
to recovery. For preserving conceptual combination ability, we design a
plug-and-play module to update few parameters in VDMs, enhancing the model's
ability to capture the appearance details and the ability of concept
combinations for new subjects. For motion generation, we observed that VDMs
tend to restore the motion of video in the early stage of denoising, while
focusing on the recovery of subject details in the later stage. Therefore, we
propose Dynamic Weighted Video Sampling Strategy. Using the pluggability of our
subject learning modules, we reduce the impact of this module on motion
generation in the early stage of denoising, preserving the ability to generate
motion of VDMs. In the later stage of denoising, we restore this module to
repair the appearance details of the specified subject, thereby ensuring the
fidelity of the subject's appearance. Experimental results show that our method
has a significant improvement compared to previous methods.Summary
AI-Generated Summary