AnimateDiff: Anima i tuoi modelli di diffusione testo-immagine personalizzati senza regolazioni specifiche

Abstract

Con l'avanzamento dei modelli testo-immagine (ad esempio, Stable Diffusion) e delle corrispondenti tecniche di personalizzazione come DreamBooth e LoRA, chiunque può trasformare la propria immaginazione in immagini di alta qualità a costi accessibili. Di conseguenza, c'è una grande richiesta di tecniche di animazione delle immagini per combinare ulteriormente le immagini statiche generate con dinamiche di movimento. In questo rapporto, proponiamo un framework pratico per animare la maggior parte dei modelli testo-immagine personalizzati esistenti una volta per tutte, risparmiando sforzi nella regolazione specifica del modello. Al centro del framework proposto c'è l'inserimento di un modulo di modellazione del movimento appena inizializzato nel modello testo-immagine congelato e il suo addestramento su clip video per distillare prior di movimento ragionevoli. Una volta addestrato, semplicemente iniettando questo modulo di modellazione del movimento, tutte le versioni personalizzate derivate dallo stesso modello T2I di base diventano facilmente modelli guidati da testo che producono immagini animate diversificate e personalizzate. Abbiamo condotto la nostra valutazione su diversi modelli testo-immagine personalizzati rappresentativi pubblici, spaziando da immagini anime a fotografie realistiche, e dimostriamo che il nostro framework proposto aiuta questi modelli a generare clip di animazione temporalmente fluide preservando il dominio e la diversità dei loro output. Codice e pesi pre-addestrati saranno pubblicamente disponibili su https://animatediff.github.io/.

English

With the advance of text-to-image models (e.g., Stable Diffusion) and corresponding personalization techniques such as DreamBooth and LoRA, everyone can manifest their imagination into high-quality images at an affordable cost. Subsequently, there is a great demand for image animation techniques to further combine generated static images with motion dynamics. In this report, we propose a practical framework to animate most of the existing personalized text-to-image models once and for all, saving efforts in model-specific tuning. At the core of the proposed framework is to insert a newly initialized motion modeling module into the frozen text-to-image model and train it on video clips to distill reasonable motion priors. Once trained, by simply injecting this motion modeling module, all personalized versions derived from the same base T2I readily become text-driven models that produce diverse and personalized animated images. We conduct our evaluation on several public representative personalized text-to-image models across anime pictures and realistic photographs, and demonstrate that our proposed framework helps these models generate temporally smooth animation clips while preserving the domain and diversity of their outputs. Code and pre-trained weights will be publicly available at https://animatediff.github.io/ .

AnimateDiff: Anima i tuoi modelli di diffusione testo-immagine personalizzati senza regolazioni specifiche

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

Abstract

Support