CustomCrafter: Anpassbare Videogenerierung mit Erhaltung der Bewegung und Konzeptkompositions-Fähigkeiten
CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities
August 23, 2024
Autoren: Tao Wu, Yong Zhang, Xintao Wang, Xianpan Zhou, Guangcong Zheng, Zhongang Qi, Ying Shan, Xi Li
cs.AI
Zusammenfassung
Die benutzerdefinierte Videogenerierung zielt darauf ab, hochwertige Videos zu erstellen, die durch Texteingaben und Referenzbilder des Subjekts geleitet werden. Da sie jedoch nur auf statischen Bildern trainiert ist, stört der Feinabstimmungsprozess des Subjekt-Lernens die Fähigkeiten von Videodiffusionsmodellen (VDMs), Konzepte zu kombinieren und Bewegungen zu generieren. Um diese Fähigkeiten wiederherzustellen, verwenden einige Methoden zusätzliche Videos, die dem Hinweis ähnlich sind, um das Modell feinabzustimmen oder zu leiten. Dies erfordert häufige Änderungen der Leitvideos und sogar eine Neuanpassung des Modells bei der Generierung unterschiedlicher Bewegungen, was für Benutzer sehr umständlich ist. In diesem Papier schlagen wir CustomCrafter vor, ein neuartiges Framework, das die Fähigkeiten der Modell-Bewegungsgenerierung und Konzeptkombination ohne zusätzliches Video und Feinabstimmung zur Wiederherstellung bewahrt. Um die Fähigkeit der Konzeptkombination zu bewahren, entwerfen wir ein Plug-and-Play-Modul, um einige Parameter in VDMs zu aktualisieren, was die Fähigkeit des Modells verbessert, Erscheinungsdetails zu erfassen und die Fähigkeit der Konzeptkombinationen für neue Subjekte zu verbessern. Bei der Bewegungsgenerierung haben wir beobachtet, dass VDMs dazu neigen, die Bewegung des Videos im frühen Stadium der Rauschunterdrückung wiederherzustellen, während sie sich im späteren Stadium auf die Wiederherstellung von Subjektdetails konzentrieren. Daher schlagen wir eine dynamische gewichtete Video-Sampling-Strategie vor. Durch die Steckbarkeit unserer Subjektlernmodule reduzieren wir den Einfluss dieses Moduls auf die Bewegungsgenerierung im frühen Stadium der Rauschunterdrückung, um die Fähigkeit zur Generierung von Bewegungen von VDMs zu bewahren. Im späteren Stadium der Rauschunterdrückung stellen wir dieses Modul wieder her, um die Erscheinungsdetails des spezifizierten Subjekts zu reparieren und so die Treue des Erscheinungsbilds des Subjekts zu gewährleisten. Experimentelle Ergebnisse zeigen, dass unsere Methode im Vergleich zu früheren Methoden eine signifikante Verbesserung aufweist.
English
Customized video generation aims to generate high-quality videos guided by
text prompts and subject's reference images. However, since it is only trained
on static images, the fine-tuning process of subject learning disrupts
abilities of video diffusion models (VDMs) to combine concepts and generate
motions. To restore these abilities, some methods use additional video similar
to the prompt to fine-tune or guide the model. This requires frequent changes
of guiding videos and even re-tuning of the model when generating different
motions, which is very inconvenient for users. In this paper, we propose
CustomCrafter, a novel framework that preserves the model's motion generation
and conceptual combination abilities without additional video and fine-tuning
to recovery. For preserving conceptual combination ability, we design a
plug-and-play module to update few parameters in VDMs, enhancing the model's
ability to capture the appearance details and the ability of concept
combinations for new subjects. For motion generation, we observed that VDMs
tend to restore the motion of video in the early stage of denoising, while
focusing on the recovery of subject details in the later stage. Therefore, we
propose Dynamic Weighted Video Sampling Strategy. Using the pluggability of our
subject learning modules, we reduce the impact of this module on motion
generation in the early stage of denoising, preserving the ability to generate
motion of VDMs. In the later stage of denoising, we restore this module to
repair the appearance details of the specified subject, thereby ensuring the
fidelity of the subject's appearance. Experimental results show that our method
has a significant improvement compared to previous methods.Summary
AI-Generated Summary