VidéoMaker : Génération de vidéos personnalisées sans entraînement avec la force inhérente des modèles de diffusion vidéo
VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models
December 27, 2024
Auteurs: Tao Wu, Yong Zhang, Xiaodong Cun, Zhongang Qi, Junfu Pu, Huanzhang Dou, Guangcong Zheng, Ying Shan, Xi Li
cs.AI
Résumé
La génération personnalisée de vidéos sans apprentissage préalable a suscité un intérêt considérable en raison de son potentiel d'application substantiel. Les méthodes existantes reposent sur des modèles supplémentaires pour extraire et injecter les caractéristiques du sujet de référence, en supposant que le Modèle de Diffusion Vidéo (MDV) seul est insuffisant pour la génération personnalisée de vidéos sans apprentissage préalable. Cependant, ces méthodes ont souvent du mal à maintenir une apparence de sujet cohérente en raison de techniques d'extraction et d'injection de caractéristiques sous-optimales. Dans cet article, nous révélons que le MDV possède intrinsèquement la capacité d'extraire et d'injecter des caractéristiques du sujet. En nous éloignant des approches heuristiques précédentes, nous introduisons un nouveau cadre qui exploite la capacité intrinsèque du MDV pour permettre une génération de vidéos personnalisées sans apprentissage préalable de haute qualité. Plus précisément, pour l'extraction de caractéristiques, nous introduisons directement des images de référence dans le MDV et utilisons son processus d'extraction de caractéristiques intrinsèque, qui fournit non seulement des caractéristiques détaillées mais s'aligne également significativement avec les connaissances préalablement acquises du MDV. Pour l'injection de caractéristiques, nous concevons une interaction bidirectionnelle innovante entre les caractéristiques du sujet et le contenu généré grâce à une auto-attention spatiale au sein du MDV, garantissant que le MDV a une meilleure fidélité au sujet tout en maintenant la diversité de la vidéo générée. Des expériences menées sur la génération de vidéos personnalisées humaines et d'objets valident l'efficacité de notre cadre.
English
Zero-shot customized video generation has gained significant attention due to
its substantial application potential. Existing methods rely on additional
models to extract and inject reference subject features, assuming that the
Video Diffusion Model (VDM) alone is insufficient for zero-shot customized
video generation. However, these methods often struggle to maintain consistent
subject appearance due to suboptimal feature extraction and injection
techniques. In this paper, we reveal that VDM inherently possesses the force to
extract and inject subject features. Departing from previous heuristic
approaches, we introduce a novel framework that leverages VDM's inherent force
to enable high-quality zero-shot customized video generation. Specifically, for
feature extraction, we directly input reference images into VDM and use its
intrinsic feature extraction process, which not only provides fine-grained
features but also significantly aligns with VDM's pre-trained knowledge. For
feature injection, we devise an innovative bidirectional interaction between
subject features and generated content through spatial self-attention within
VDM, ensuring that VDM has better subject fidelity while maintaining the
diversity of the generated video.Experiments on both customized human and
object video generation validate the effectiveness of our framework.Summary
AI-Generated Summary