ChatPaper.aiChatPaper

DiffuseKronA: Een parameter-efficiënte fine-tuning methode voor gepersonaliseerde diffusiemodellen

DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized Diffusion Model

February 27, 2024
Auteurs: Shyam Marjit, Harshit Singh, Nityanand Mathur, Sayak Paul, Chia-Mu Yu, Pin-Yu Chen
cs.AI

Samenvatting

Op het gebied van onderwerpgestuurde tekst-naar-beeld (T2I) generatieve modellen hebben recente ontwikkelingen zoals DreamBooth en BLIP-Diffusion indrukwekkende resultaten opgeleverd, maar kampen ze met beperkingen vanwege hun intensieve fine-tuning vereisten en aanzienlijke parameterbehoeften. Hoewel de low-rank adaptatie (LoRA) module binnen DreamBooth een vermindering van trainbare parameters biedt, introduceert het een uitgesproken gevoeligheid voor hyperparameters, wat leidt tot een compromis tussen parameter-efficiëntie en de kwaliteit van gepersonaliseerde T2I-beeldsynthese. Om deze beperkingen aan te pakken, introduceren we \textit{DiffuseKronA}, een nieuwe adaptatiemodule gebaseerd op het Kronecker-product, die niet alleen het aantal parameters aanzienlijk vermindert met 35\% en 99,947\% in vergelijking met LoRA-DreamBooth en het originele DreamBooth, maar ook de kwaliteit van de beeldsynthese verbetert. Cruciaal is dat DiffuseKronA het probleem van hyperparametergevoeligheid vermindert, waardoor het consistente hoogwaardige generaties levert over een breed scala aan hyperparameters, waardoor de noodzaak voor uitgebreide fine-tuning wordt verminderd. Bovendien maakt een meer controleerbare decompositie DiffuseKronA beter interpreteerbaar en kan het zelfs een reductie van tot 50\% bereiken met resultaten die vergelijkbaar zijn met LoRA-DreamBooth. Geëvalueerd tegen diverse en complexe invoerbeelden en tekstprompts, presteert DiffuseKronA consistent beter dan bestaande modellen, waarbij het diverse beelden van hogere kwaliteit produceert met verbeterde trouw en een nauwkeurigere kleurverdeling van objecten, terwijl het uitstekende parameter-efficiëntie behoudt, wat een aanzienlijke vooruitgang in het veld van T2I generatieve modellering vertegenwoordigt. Onze projectpagina, bestaande uit links naar de code en vooraf getrainde checkpoints, is beschikbaar op https://diffusekrona.github.io/{https://diffusekrona.github.io/}.
English
In the realm of subject-driven text-to-image (T2I) generative models, recent developments like DreamBooth and BLIP-Diffusion have led to impressive results yet encounter limitations due to their intensive fine-tuning demands and substantial parameter requirements. While the low-rank adaptation (LoRA) module within DreamBooth offers a reduction in trainable parameters, it introduces a pronounced sensitivity to hyperparameters, leading to a compromise between parameter efficiency and the quality of T2I personalized image synthesis. Addressing these constraints, we introduce \textit{DiffuseKronA}, a novel Kronecker product-based adaptation module that not only significantly reduces the parameter count by 35\% and 99.947\% compared to LoRA-DreamBooth and the original DreamBooth, respectively, but also enhances the quality of image synthesis. Crucially, DiffuseKronA mitigates the issue of hyperparameter sensitivity, delivering consistent high-quality generations across a wide range of hyperparameters, thereby diminishing the necessity for extensive fine-tuning. Furthermore, a more controllable decomposition makes DiffuseKronA more interpretable and even can achieve up to a 50\% reduction with results comparable to LoRA-Dreambooth. Evaluated against diverse and complex input images and text prompts, DiffuseKronA consistently outperforms existing models, producing diverse images of higher quality with improved fidelity and a more accurate color distribution of objects, all the while upholding exceptional parameter efficiency, thus presenting a substantial advancement in the field of T2I generative modeling. Our project page, consisting of links to the code, and pre-trained checkpoints, is available at https://diffusekrona.github.io/{https://diffusekrona.github.io/}.
PDF231February 8, 2026