AnimateDiff: Animeer je gepersonaliseerde tekst-naar-beeld diffusiemodellen zonder specifieke afstemming
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
July 10, 2023
Auteurs: Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, Bo Dai
cs.AI
Samenvatting
Met de vooruitgang van tekst-naar-beeldmodellen (bijv. Stable Diffusion) en bijbehorende personalisatietechnieken zoals DreamBooth en LoRA, kan iedereen zijn of haar verbeelding omzetten in hoogwaardige afbeeldingen tegen een betaalbare prijs. Hierdoor is er een grote vraag naar technieken voor beeldanimatie om gegenereerde statische afbeeldingen verder te combineren met bewegingsdynamiek. In dit rapport stellen we een praktisch raamwerk voor om de meeste bestaande gepersonaliseerde tekst-naar-beeldmodellen in één keer te animeren, waardoor de inspanning voor modelspecifieke afstemming wordt bespaard. De kern van het voorgestelde raamwerk is het inbrengen van een nieuw geïnitialiseerd bewegingsmodelmodule in het bevroren tekst-naar-beeldmodel en deze te trainen op videoclips om redelijke bewegingsprioriteiten te destilleren. Eenmaal getraind, kunnen door simpelweg deze bewegingsmodelmodule te injecteren, alle gepersonaliseerde versies die afgeleid zijn van hetzelfde basis T2I-model, gemakkelijk tekstgestuurde modellen worden die diverse en gepersonaliseerde geanimeerde afbeeldingen produceren. We voeren onze evaluatie uit op verschillende openbare representatieve gepersonaliseerde tekst-naar-beeldmodellen, variërend van anime-afbeeldingen tot realistische foto's, en tonen aan dat ons voorgestelde raamwerk deze modellen helpt om temporeel vloeiende animatieclips te genereren terwijl de domeinspecificiteit en diversiteit van hun output behouden blijft. Code en vooraf getrainde gewichten zullen openbaar beschikbaar zijn op https://animatediff.github.io/.
English
With the advance of text-to-image models (e.g., Stable Diffusion) and
corresponding personalization techniques such as DreamBooth and LoRA, everyone
can manifest their imagination into high-quality images at an affordable cost.
Subsequently, there is a great demand for image animation techniques to further
combine generated static images with motion dynamics. In this report, we
propose a practical framework to animate most of the existing personalized
text-to-image models once and for all, saving efforts in model-specific tuning.
At the core of the proposed framework is to insert a newly initialized motion
modeling module into the frozen text-to-image model and train it on video clips
to distill reasonable motion priors. Once trained, by simply injecting this
motion modeling module, all personalized versions derived from the same base
T2I readily become text-driven models that produce diverse and personalized
animated images. We conduct our evaluation on several public representative
personalized text-to-image models across anime pictures and realistic
photographs, and demonstrate that our proposed framework helps these models
generate temporally smooth animation clips while preserving the domain and
diversity of their outputs. Code and pre-trained weights will be publicly
available at https://animatediff.github.io/ .