AnimateDiff : Animez vos modèles de diffusion personnalisés texte-à-image sans réglage spécifique
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
July 10, 2023
Auteurs: Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, Bo Dai
cs.AI
Résumé
Avec l'avancée des modèles de génération d'images à partir de texte (par exemple, Stable Diffusion) et des techniques de personnalisation associées telles que DreamBooth et LoRA, chacun peut désormais donner vie à son imagination en produisant des images de haute qualité à un coût abordable. Par conséquent, il existe une forte demande pour des techniques d'animation d'images afin de combiner davantage les images statiques générées avec des dynamiques de mouvement. Dans ce rapport, nous proposons un cadre pratique pour animer la plupart des modèles personnalisés de génération d'images à partir de texte existants, une fois pour toutes, évitant ainsi les efforts de réglage spécifiques à chaque modèle. Au cœur du cadre proposé se trouve l'insertion d'un module de modélisation du mouvement nouvellement initialisé dans le modèle de génération d'images à partir de texte figé, suivi de son entraînement sur des clips vidéo pour extraire des préconceptions de mouvement raisonnables. Une fois entraîné, en injectant simplement ce module de modélisation du mouvement, toutes les versions personnalisées dérivées du même modèle de base de génération d'images à partir de texte deviennent immédiatement des modèles pilotés par le texte, capables de produire des images animées diversifiées et personnalisées. Nous menons notre évaluation sur plusieurs modèles publics représentatifs de génération d'images à partir de texte personnalisés, couvrant des images d'anime et des photographies réalistes, et démontrons que notre cadre proposé aide ces modèles à générer des clips d'animation temporellement fluides tout en préservant le domaine et la diversité de leurs sorties. Le code et les poids pré-entraînés seront disponibles publiquement à l'adresse https://animatediff.github.io/.
English
With the advance of text-to-image models (e.g., Stable Diffusion) and
corresponding personalization techniques such as DreamBooth and LoRA, everyone
can manifest their imagination into high-quality images at an affordable cost.
Subsequently, there is a great demand for image animation techniques to further
combine generated static images with motion dynamics. In this report, we
propose a practical framework to animate most of the existing personalized
text-to-image models once and for all, saving efforts in model-specific tuning.
At the core of the proposed framework is to insert a newly initialized motion
modeling module into the frozen text-to-image model and train it on video clips
to distill reasonable motion priors. Once trained, by simply injecting this
motion modeling module, all personalized versions derived from the same base
T2I readily become text-driven models that produce diverse and personalized
animated images. We conduct our evaluation on several public representative
personalized text-to-image models across anime pictures and realistic
photographs, and demonstrate that our proposed framework helps these models
generate temporally smooth animation clips while preserving the domain and
diversity of their outputs. Code and pre-trained weights will be publicly
available at https://animatediff.github.io/ .