ChatPaper.aiChatPaper

DiffuseKronA: Eine parameter-effiziente Feinabstimmungsmethode für personalisierte Diffusionsmodelle

DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized Diffusion Model

February 27, 2024
Autoren: Shyam Marjit, Harshit Singh, Nityanand Mathur, Sayak Paul, Chia-Mu Yu, Pin-Yu Chen
cs.AI

Zusammenfassung

Im Bereich der subjektgesteuerten Text-zu-Bild (T2I) Generativmodelle haben jüngste Entwicklungen wie DreamBooth und BLIP-Diffusion beeindruckende Ergebnisse erzielt, stoßen jedoch aufgrund ihrer intensiven Feinabstimmungsanforderungen und erheblichen Parameterbedarfe an Grenzen. Während das Low-Rank-Adaptation (LoRA)-Modul in DreamBooth eine Reduzierung der trainierbaren Parameter bietet, führt es zu einer ausgeprägten Sensitivität gegenüber Hyperparametern, was einen Kompromiss zwischen Parametereffizienz und der Qualität der personalisierten T2I-Bildsynthese darstellt. Um diese Einschränkungen zu überwinden, stellen wir \textit{DiffuseKronA} vor, ein neuartiges Kronecker-Produkt-basiertes Adaptationsmodul, das nicht nur die Parameteranzahl um 35\% bzw. 99,947\% im Vergleich zu LoRA-DreamBooth und dem ursprünglichen DreamBooth signifikant reduziert, sondern auch die Qualität der Bildsynthese verbessert. Entscheidend ist, dass DiffuseKronA das Problem der Hyperparameter-Sensitivität mildert und konsistent hochwertige Generationen über einen breiten Bereich von Hyperparametern liefert, wodurch die Notwendigkeit für umfangreiche Feinabstimmung verringert wird. Darüber hinaus macht eine besser kontrollierbare Zerlegung DiffuseKronA interpretierbarer und kann sogar eine Reduzierung von bis zu 50\% bei Ergebnissen erzielen, die mit LoRA-DreamBooth vergleichbar sind. Bei der Bewertung anhand vielfältiger und komplexer Eingabebilder und Textprompts übertrifft DiffuseKronA durchweg bestehende Modelle, erzeugt diverse Bilder von höherer Qualität mit verbesserter Treue und einer genaueren Farbverteilung von Objekten, während gleichzeitig eine außergewöhnliche Parametereffizienz aufrechterhalten wird. Dies stellt einen bedeutenden Fortschritt im Bereich der T2I-Generativmodellierung dar. Unsere Projektseite, bestehend aus Links zum Code und vortrainierten Checkpoints, ist verfügbar unter https://diffusekrona.github.io/{https://diffusekrona.github.io/}.
English
In the realm of subject-driven text-to-image (T2I) generative models, recent developments like DreamBooth and BLIP-Diffusion have led to impressive results yet encounter limitations due to their intensive fine-tuning demands and substantial parameter requirements. While the low-rank adaptation (LoRA) module within DreamBooth offers a reduction in trainable parameters, it introduces a pronounced sensitivity to hyperparameters, leading to a compromise between parameter efficiency and the quality of T2I personalized image synthesis. Addressing these constraints, we introduce \textit{DiffuseKronA}, a novel Kronecker product-based adaptation module that not only significantly reduces the parameter count by 35\% and 99.947\% compared to LoRA-DreamBooth and the original DreamBooth, respectively, but also enhances the quality of image synthesis. Crucially, DiffuseKronA mitigates the issue of hyperparameter sensitivity, delivering consistent high-quality generations across a wide range of hyperparameters, thereby diminishing the necessity for extensive fine-tuning. Furthermore, a more controllable decomposition makes DiffuseKronA more interpretable and even can achieve up to a 50\% reduction with results comparable to LoRA-Dreambooth. Evaluated against diverse and complex input images and text prompts, DiffuseKronA consistently outperforms existing models, producing diverse images of higher quality with improved fidelity and a more accurate color distribution of objects, all the while upholding exceptional parameter efficiency, thus presenting a substantial advancement in the field of T2I generative modeling. Our project page, consisting of links to the code, and pre-trained checkpoints, is available at https://diffusekrona.github.io/{https://diffusekrona.github.io/}.
PDF251December 15, 2024