VidéoMaker : Génération de vidéos personnalisées sans entraînement avec la force inhérente des modèles de diffusion vidéo

Résumé

La génération personnalisée de vidéos sans apprentissage préalable a suscité un intérêt considérable en raison de son potentiel d'application substantiel. Les méthodes existantes reposent sur des modèles supplémentaires pour extraire et injecter les caractéristiques du sujet de référence, en supposant que le Modèle de Diffusion Vidéo (MDV) seul est insuffisant pour la génération personnalisée de vidéos sans apprentissage préalable. Cependant, ces méthodes ont souvent du mal à maintenir une apparence de sujet cohérente en raison de techniques d'extraction et d'injection de caractéristiques sous-optimales. Dans cet article, nous révélons que le MDV possède intrinsèquement la capacité d'extraire et d'injecter des caractéristiques du sujet. En nous éloignant des approches heuristiques précédentes, nous introduisons un nouveau cadre qui exploite la capacité intrinsèque du MDV pour permettre une génération de vidéos personnalisées sans apprentissage préalable de haute qualité. Plus précisément, pour l'extraction de caractéristiques, nous introduisons directement des images de référence dans le MDV et utilisons son processus d'extraction de caractéristiques intrinsèque, qui fournit non seulement des caractéristiques détaillées mais s'aligne également significativement avec les connaissances préalablement acquises du MDV. Pour l'injection de caractéristiques, nous concevons une interaction bidirectionnelle innovante entre les caractéristiques du sujet et le contenu généré grâce à une auto-attention spatiale au sein du MDV, garantissant que le MDV a une meilleure fidélité au sujet tout en maintenant la diversité de la vidéo générée. Des expériences menées sur la génération de vidéos personnalisées humaines et d'objets valident l'efficacité de notre cadre.

English

Zero-shot customized video generation has gained significant attention due to its substantial application potential. Existing methods rely on additional models to extract and inject reference subject features, assuming that the Video Diffusion Model (VDM) alone is insufficient for zero-shot customized video generation. However, these methods often struggle to maintain consistent subject appearance due to suboptimal feature extraction and injection techniques. In this paper, we reveal that VDM inherently possesses the force to extract and inject subject features. Departing from previous heuristic approaches, we introduce a novel framework that leverages VDM's inherent force to enable high-quality zero-shot customized video generation. Specifically, for feature extraction, we directly input reference images into VDM and use its intrinsic feature extraction process, which not only provides fine-grained features but also significantly aligns with VDM's pre-trained knowledge. For feature injection, we devise an innovative bidirectional interaction between subject features and generated content through spatial self-attention within VDM, ensuring that VDM has better subject fidelity while maintaining the diversity of the generated video.Experiments on both customized human and object video generation validate the effectiveness of our framework.