AnimateDiff: Anima i tuoi modelli di diffusione testo-immagine personalizzati senza regolazioni specifiche
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
July 10, 2023
Autori: Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, Bo Dai
cs.AI
Abstract
Con l'avanzamento dei modelli testo-immagine (ad esempio, Stable Diffusion) e delle corrispondenti tecniche di personalizzazione come DreamBooth e LoRA, chiunque può trasformare la propria immaginazione in immagini di alta qualità a costi accessibili. Di conseguenza, c'è una grande richiesta di tecniche di animazione delle immagini per combinare ulteriormente le immagini statiche generate con dinamiche di movimento. In questo rapporto, proponiamo un framework pratico per animare la maggior parte dei modelli testo-immagine personalizzati esistenti una volta per tutte, risparmiando sforzi nella regolazione specifica del modello. Al centro del framework proposto c'è l'inserimento di un modulo di modellazione del movimento appena inizializzato nel modello testo-immagine congelato e il suo addestramento su clip video per distillare prior di movimento ragionevoli. Una volta addestrato, semplicemente iniettando questo modulo di modellazione del movimento, tutte le versioni personalizzate derivate dallo stesso modello T2I di base diventano facilmente modelli guidati da testo che producono immagini animate diversificate e personalizzate. Abbiamo condotto la nostra valutazione su diversi modelli testo-immagine personalizzati rappresentativi pubblici, spaziando da immagini anime a fotografie realistiche, e dimostriamo che il nostro framework proposto aiuta questi modelli a generare clip di animazione temporalmente fluide preservando il dominio e la diversità dei loro output. Codice e pesi pre-addestrati saranno pubblicamente disponibili su https://animatediff.github.io/.
English
With the advance of text-to-image models (e.g., Stable Diffusion) and
corresponding personalization techniques such as DreamBooth and LoRA, everyone
can manifest their imagination into high-quality images at an affordable cost.
Subsequently, there is a great demand for image animation techniques to further
combine generated static images with motion dynamics. In this report, we
propose a practical framework to animate most of the existing personalized
text-to-image models once and for all, saving efforts in model-specific tuning.
At the core of the proposed framework is to insert a newly initialized motion
modeling module into the frozen text-to-image model and train it on video clips
to distill reasonable motion priors. Once trained, by simply injecting this
motion modeling module, all personalized versions derived from the same base
T2I readily become text-driven models that produce diverse and personalized
animated images. We conduct our evaluation on several public representative
personalized text-to-image models across anime pictures and realistic
photographs, and demonstrate that our proposed framework helps these models
generate temporally smooth animation clips while preserving the domain and
diversity of their outputs. Code and pre-trained weights will be publicly
available at https://animatediff.github.io/ .