ChatPaper.aiChatPaper

CustomCrafter : Génération de Vidéos Personnalisées en Préservant les Capacités de Mouvement et de Composition de Concepts

CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities

August 23, 2024
Auteurs: Tao Wu, Yong Zhang, Xintao Wang, Xianpan Zhou, Guangcong Zheng, Zhongang Qi, Ying Shan, Xi Li
cs.AI

Résumé

La génération de vidéos personnalisées vise à produire des vidéos de haute qualité guidées par des instructions textuelles et des images de référence du sujet. Cependant, étant donné qu'elle est uniquement entraînée sur des images statiques, le processus de fine-tuning de l'apprentissage du sujet perturbe les capacités des modèles de diffusion vidéo (VDM) à combiner des concepts et à générer des mouvements. Pour restaurer ces capacités, certaines méthodes utilisent une vidéo supplémentaire similaire à l'instruction pour affiner ou guider le modèle. Cela nécessite des changements fréquents de vidéos guides et même une nouvelle mise au point du modèle lors de la génération de différents mouvements, ce qui est très contraignant pour les utilisateurs. Dans cet article, nous proposons CustomCrafter, un nouveau cadre qui préserve la génération de mouvements du modèle et les capacités de combinaison conceptuelle sans vidéo supplémentaire et sans réglage fin pour la récupération. Pour préserver la capacité de combinaison conceptuelle, nous concevons un module plug-and-play pour mettre à jour quelques paramètres dans les VDM, améliorant la capacité du modèle à capturer les détails d'apparence et la capacité de combinaison de concepts pour de nouveaux sujets. Pour la génération de mouvements, nous avons observé que les VDM ont tendance à restaurer le mouvement de la vidéo au début du débruitage, tout en se concentrant sur la récupération des détails du sujet à un stade ultérieur. Par conséquent, nous proposons une Stratégie d'Échantillonnage Vidéo Dynamique Pondérée. En utilisant la modularité de nos modules d'apprentissage du sujet, nous réduisons l'impact de ce module sur la génération de mouvements au début du débruitage, préservant ainsi la capacité de générer des mouvements des VDM. À un stade ultérieur du débruitage, nous réactivons ce module pour réparer les détails d'apparence du sujet spécifié, garantissant ainsi la fidélité de l'apparence du sujet. Les résultats expérimentaux montrent que notre méthode présente une amélioration significative par rapport aux méthodes précédentes.
English
Customized video generation aims to generate high-quality videos guided by text prompts and subject's reference images. However, since it is only trained on static images, the fine-tuning process of subject learning disrupts abilities of video diffusion models (VDMs) to combine concepts and generate motions. To restore these abilities, some methods use additional video similar to the prompt to fine-tune or guide the model. This requires frequent changes of guiding videos and even re-tuning of the model when generating different motions, which is very inconvenient for users. In this paper, we propose CustomCrafter, a novel framework that preserves the model's motion generation and conceptual combination abilities without additional video and fine-tuning to recovery. For preserving conceptual combination ability, we design a plug-and-play module to update few parameters in VDMs, enhancing the model's ability to capture the appearance details and the ability of concept combinations for new subjects. For motion generation, we observed that VDMs tend to restore the motion of video in the early stage of denoising, while focusing on the recovery of subject details in the later stage. Therefore, we propose Dynamic Weighted Video Sampling Strategy. Using the pluggability of our subject learning modules, we reduce the impact of this module on motion generation in the early stage of denoising, preserving the ability to generate motion of VDMs. In the later stage of denoising, we restore this module to repair the appearance details of the specified subject, thereby ensuring the fidelity of the subject's appearance. Experimental results show that our method has a significant improvement compared to previous methods.

Summary

AI-Generated Summary

PDF122November 16, 2024