ChatPaper.aiChatPaper

AnimateDiff: Animieren Sie Ihre personalisierten Text-zu-Bild-Diffusionsmodelle ohne spezifische Anpassung

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

July 10, 2023
Autoren: Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, Bo Dai
cs.AI

Zusammenfassung

Mit dem Fortschritt von Text-zu-Bild-Modellen (z. B. Stable Diffusion) und entsprechenden Personalisierungstechniken wie DreamBooth und LoRA kann jeder seine Vorstellungskraft in hochwertige Bilder zu erschwinglichen Kosten umsetzen. Infolgedessen besteht ein großer Bedarf an Bildanimationsverfahren, um generierte statische Bilder weiter mit Bewegungsdynamiken zu kombinieren. In diesem Bericht schlagen wir ein praktisches Framework vor, um die meisten bestehenden personalisierten Text-zu-Bild-Modelle ein für alle Mal zu animieren und damit den Aufwand für modellspezifische Anpassungen zu sparen. Kern des vorgeschlagenen Frameworks ist die Integration eines neu initialisierten Bewegungsmodellierungsmoduls in das eingefrorene Text-zu-Bild-Modell und dessen Training auf Videoclips, um sinnvolle Bewegungs-Priors zu extrahieren. Nach dem Training können durch einfaches Einfügen dieses Bewegungsmodellierungsmoduls alle personalisierten Versionen, die auf demselben Basis-T2I-Modell basieren, zu textgesteuerten Modellen werden, die vielfältige und personalisierte animierte Bilder erzeugen. Wir führen unsere Bewertung an mehreren öffentlichen, repräsentativen personalisierten Text-zu-Bild-Modellen durch, die sowohl Anime-Bilder als auch realistische Fotografien umfassen, und zeigen, dass unser vorgeschlagenes Framework diesen Modellen hilft, zeitlich flüssige Animationsclips zu generieren, während die Domäne und Vielfalt ihrer Ausgaben erhalten bleibt. Code und vortrainierte Gewichte werden öffentlich unter https://animatediff.github.io/ verfügbar sein.
English
With the advance of text-to-image models (e.g., Stable Diffusion) and corresponding personalization techniques such as DreamBooth and LoRA, everyone can manifest their imagination into high-quality images at an affordable cost. Subsequently, there is a great demand for image animation techniques to further combine generated static images with motion dynamics. In this report, we propose a practical framework to animate most of the existing personalized text-to-image models once and for all, saving efforts in model-specific tuning. At the core of the proposed framework is to insert a newly initialized motion modeling module into the frozen text-to-image model and train it on video clips to distill reasonable motion priors. Once trained, by simply injecting this motion modeling module, all personalized versions derived from the same base T2I readily become text-driven models that produce diverse and personalized animated images. We conduct our evaluation on several public representative personalized text-to-image models across anime pictures and realistic photographs, and demonstrate that our proposed framework helps these models generate temporally smooth animation clips while preserving the domain and diversity of their outputs. Code and pre-trained weights will be publicly available at https://animatediff.github.io/ .
PDF648December 15, 2024