AnimateDiff: Animeer je gepersonaliseerde tekst-naar-beeld diffusiemodellen zonder specifieke afstemming

Samenvatting

Met de vooruitgang van tekst-naar-beeldmodellen (bijv. Stable Diffusion) en bijbehorende personalisatietechnieken zoals DreamBooth en LoRA, kan iedereen zijn of haar verbeelding omzetten in hoogwaardige afbeeldingen tegen een betaalbare prijs. Hierdoor is er een grote vraag naar technieken voor beeldanimatie om gegenereerde statische afbeeldingen verder te combineren met bewegingsdynamiek. In dit rapport stellen we een praktisch raamwerk voor om de meeste bestaande gepersonaliseerde tekst-naar-beeldmodellen in één keer te animeren, waardoor de inspanning voor modelspecifieke afstemming wordt bespaard. De kern van het voorgestelde raamwerk is het inbrengen van een nieuw geïnitialiseerd bewegingsmodelmodule in het bevroren tekst-naar-beeldmodel en deze te trainen op videoclips om redelijke bewegingsprioriteiten te destilleren. Eenmaal getraind, kunnen door simpelweg deze bewegingsmodelmodule te injecteren, alle gepersonaliseerde versies die afgeleid zijn van hetzelfde basis T2I-model, gemakkelijk tekstgestuurde modellen worden die diverse en gepersonaliseerde geanimeerde afbeeldingen produceren. We voeren onze evaluatie uit op verschillende openbare representatieve gepersonaliseerde tekst-naar-beeldmodellen, variërend van anime-afbeeldingen tot realistische foto's, en tonen aan dat ons voorgestelde raamwerk deze modellen helpt om temporeel vloeiende animatieclips te genereren terwijl de domeinspecificiteit en diversiteit van hun output behouden blijft. Code en vooraf getrainde gewichten zullen openbaar beschikbaar zijn op https://animatediff.github.io/.

English

With the advance of text-to-image models (e.g., Stable Diffusion) and corresponding personalization techniques such as DreamBooth and LoRA, everyone can manifest their imagination into high-quality images at an affordable cost. Subsequently, there is a great demand for image animation techniques to further combine generated static images with motion dynamics. In this report, we propose a practical framework to animate most of the existing personalized text-to-image models once and for all, saving efforts in model-specific tuning. At the core of the proposed framework is to insert a newly initialized motion modeling module into the frozen text-to-image model and train it on video clips to distill reasonable motion priors. Once trained, by simply injecting this motion modeling module, all personalized versions derived from the same base T2I readily become text-driven models that produce diverse and personalized animated images. We conduct our evaluation on several public representative personalized text-to-image models across anime pictures and realistic photographs, and demonstrate that our proposed framework helps these models generate temporally smooth animation clips while preserving the domain and diversity of their outputs. Code and pre-trained weights will be publicly available at https://animatediff.github.io/ .

AnimateDiff: Animeer je gepersonaliseerde tekst-naar-beeld diffusiemodellen zonder specifieke afstemming

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

Samenvatting

Support