DiffuseKronA: Um Método de Ajuste Fino Eficiente em Parâmetros para Modelos de Difusão Personalizados
DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized Diffusion Model
February 27, 2024
Autores: Shyam Marjit, Harshit Singh, Nityanand Mathur, Sayak Paul, Chia-Mu Yu, Pin-Yu Chen
cs.AI
Resumo
No domínio dos modelos generativos de texto para imagem (T2I) orientados por assunto, desenvolvimentos recentes como DreamBooth e BLIP-Diffusion têm alcançado resultados impressionantes, mas enfrentam limitações devido às suas demandas intensivas de ajuste fino e requisitos substanciais de parâmetros. Embora o módulo de adaptação de baixo posto (LoRA) dentro do DreamBooth ofereça uma redução nos parâmetros treináveis, ele introduz uma sensibilidade acentuada aos hiperparâmetros, resultando em um compromisso entre a eficiência de parâmetros e a qualidade da síntese de imagens personalizadas T2I. Para abordar essas restrições, introduzimos o \textit{DiffuseKronA}, um novo módulo de adaptação baseado no produto de Kronecker que não apenas reduz significativamente a contagem de parâmetros em 35\% e 99,947\% em comparação com o LoRA-DreamBooth e o DreamBooth original, respectivamente, mas também melhora a qualidade da síntese de imagens. Crucialmente, o DiffuseKronA mitiga o problema da sensibilidade aos hiperparâmetros, entregando gerações de alta qualidade consistentes em uma ampla gama de hiperparâmetros, diminuindo assim a necessidade de ajuste fino extensivo. Além disso, uma decomposição mais controlável torna o DiffuseKronA mais interpretável e pode até alcançar uma redução de até 50\% com resultados comparáveis ao LoRA-Dreambooth. Avaliado contra diversas e complexas imagens de entrada e prompts de texto, o DiffuseKronA supera consistentemente os modelos existentes, produzindo imagens diversas de maior qualidade com fidelidade aprimorada e uma distribuição de cores mais precisa dos objetos, tudo isso mantendo uma eficiência excepcional de parâmetros, representando assim um avanço substancial no campo da modelagem generativa T2I. Nossa página do projeto, contendo links para o código e checkpoints pré-treinados, está disponível em https://diffusekrona.github.io/{https://diffusekrona.github.io/}.
English
In the realm of subject-driven text-to-image (T2I) generative models, recent
developments like DreamBooth and BLIP-Diffusion have led to impressive results
yet encounter limitations due to their intensive fine-tuning demands and
substantial parameter requirements. While the low-rank adaptation (LoRA) module
within DreamBooth offers a reduction in trainable parameters, it introduces a
pronounced sensitivity to hyperparameters, leading to a compromise between
parameter efficiency and the quality of T2I personalized image synthesis.
Addressing these constraints, we introduce \textit{DiffuseKronA}, a
novel Kronecker product-based adaptation module that not only significantly
reduces the parameter count by 35\% and 99.947\% compared to LoRA-DreamBooth
and the original DreamBooth, respectively, but also enhances the quality of
image synthesis. Crucially, DiffuseKronA mitigates the issue of
hyperparameter sensitivity, delivering consistent high-quality generations
across a wide range of hyperparameters, thereby diminishing the necessity for
extensive fine-tuning. Furthermore, a more controllable decomposition makes
DiffuseKronA more interpretable and even can achieve up to a 50\%
reduction with results comparable to LoRA-Dreambooth. Evaluated against diverse
and complex input images and text prompts, DiffuseKronA consistently
outperforms existing models, producing diverse images of higher quality with
improved fidelity and a more accurate color distribution of objects, all the
while upholding exceptional parameter efficiency, thus presenting a substantial
advancement in the field of T2I generative modeling. Our project page,
consisting of links to the code, and pre-trained checkpoints, is available at
https://diffusekrona.github.io/{https://diffusekrona.github.io/}.