AnimateDiff : Animez vos modèles de diffusion personnalisés texte-à-image sans réglage spécifique

papers.abstract

Avec l'avancée des modèles de génération d'images à partir de texte (par exemple, Stable Diffusion) et des techniques de personnalisation associées telles que DreamBooth et LoRA, chacun peut désormais donner vie à son imagination en produisant des images de haute qualité à un coût abordable. Par conséquent, il existe une forte demande pour des techniques d'animation d'images afin de combiner davantage les images statiques générées avec des dynamiques de mouvement. Dans ce rapport, nous proposons un cadre pratique pour animer la plupart des modèles personnalisés de génération d'images à partir de texte existants, une fois pour toutes, évitant ainsi les efforts de réglage spécifiques à chaque modèle. Au cœur du cadre proposé se trouve l'insertion d'un module de modélisation du mouvement nouvellement initialisé dans le modèle de génération d'images à partir de texte figé, suivi de son entraînement sur des clips vidéo pour extraire des préconceptions de mouvement raisonnables. Une fois entraîné, en injectant simplement ce module de modélisation du mouvement, toutes les versions personnalisées dérivées du même modèle de base de génération d'images à partir de texte deviennent immédiatement des modèles pilotés par le texte, capables de produire des images animées diversifiées et personnalisées. Nous menons notre évaluation sur plusieurs modèles publics représentatifs de génération d'images à partir de texte personnalisés, couvrant des images d'anime et des photographies réalistes, et démontrons que notre cadre proposé aide ces modèles à générer des clips d'animation temporellement fluides tout en préservant le domaine et la diversité de leurs sorties. Le code et les poids pré-entraînés seront disponibles publiquement à l'adresse https://animatediff.github.io/.

English

With the advance of text-to-image models (e.g., Stable Diffusion) and corresponding personalization techniques such as DreamBooth and LoRA, everyone can manifest their imagination into high-quality images at an affordable cost. Subsequently, there is a great demand for image animation techniques to further combine generated static images with motion dynamics. In this report, we propose a practical framework to animate most of the existing personalized text-to-image models once and for all, saving efforts in model-specific tuning. At the core of the proposed framework is to insert a newly initialized motion modeling module into the frozen text-to-image model and train it on video clips to distill reasonable motion priors. Once trained, by simply injecting this motion modeling module, all personalized versions derived from the same base T2I readily become text-driven models that produce diverse and personalized animated images. We conduct our evaluation on several public representative personalized text-to-image models across anime pictures and realistic photographs, and demonstrate that our proposed framework helps these models generate temporally smooth animation clips while preserving the domain and diversity of their outputs. Code and pre-trained weights will be publicly available at https://animatediff.github.io/ .

AnimateDiff : Animez vos modèles de diffusion personnalisés texte-à-image sans réglage spécifique

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

papers.abstract

Support