DiffuseKronA: Метод эффективной тонкой настройки параметров для персонализированных моделей диффузии
DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized Diffusion Model
February 27, 2024
Авторы: Shyam Marjit, Harshit Singh, Nityanand Mathur, Sayak Paul, Chia-Mu Yu, Pin-Yu Chen
cs.AI
Аннотация
В области генеративных моделей для создания изображений на основе текста (T2I), ориентированных на конкретные объекты, последние разработки, такие как DreamBooth и BLIP-Diffusion, демонстрируют впечатляющие результаты, однако сталкиваются с ограничениями из-за требований к интенсивной тонкой настройке и значительным параметрам. Хотя модуль низкоранговой адаптации (LoRA) в DreamBooth позволяет сократить количество обучаемых параметров, он вносит повышенную чувствительность к гиперпараметрам, что приводит к компромиссу между эффективностью параметров и качеством персонализированного синтеза изображений T2I. Для решения этих ограничений мы представляем \textit{DiffuseKronA} — новый модуль адаптации на основе произведения Кронекера, который не только значительно сокращает количество параметров на 35\% и 99,947\% по сравнению с LoRA-DreamBooth и оригинальным DreamBooth соответственно, но и повышает качество синтеза изображений. Важно, что DiffuseKronA смягчает проблему чувствительности к гиперпараметрам, обеспечивая стабильно высокое качество генерации при широком диапазоне гиперпараметров, тем самым уменьшая необходимость в интенсивной тонкой настройке. Более того, более контролируемая декомпозиция делает DiffuseKronA более интерпретируемым и даже позволяет достичь сокращения параметров до 50\% с результатами, сопоставимыми с LoRA-DreamBooth. Оцененный на разнообразных и сложных входных изображениях и текстовых запросах, DiffuseKronA стабильно превосходит существующие модели, создавая разнообразные изображения более высокого качества с улучшенной точностью и более точным распределением цветов объектов, сохраняя при этом исключительную эффективность параметров, что представляет собой значительный прогресс в области генеративного моделирования T2I. Наша страница проекта, содержащая ссылки на код и предварительно обученные контрольные точки, доступна по адресу https://diffusekrona.github.io/{https://diffusekrona.github.io/}.
English
In the realm of subject-driven text-to-image (T2I) generative models, recent
developments like DreamBooth and BLIP-Diffusion have led to impressive results
yet encounter limitations due to their intensive fine-tuning demands and
substantial parameter requirements. While the low-rank adaptation (LoRA) module
within DreamBooth offers a reduction in trainable parameters, it introduces a
pronounced sensitivity to hyperparameters, leading to a compromise between
parameter efficiency and the quality of T2I personalized image synthesis.
Addressing these constraints, we introduce \textit{DiffuseKronA}, a
novel Kronecker product-based adaptation module that not only significantly
reduces the parameter count by 35\% and 99.947\% compared to LoRA-DreamBooth
and the original DreamBooth, respectively, but also enhances the quality of
image synthesis. Crucially, DiffuseKronA mitigates the issue of
hyperparameter sensitivity, delivering consistent high-quality generations
across a wide range of hyperparameters, thereby diminishing the necessity for
extensive fine-tuning. Furthermore, a more controllable decomposition makes
DiffuseKronA more interpretable and even can achieve up to a 50\%
reduction with results comparable to LoRA-Dreambooth. Evaluated against diverse
and complex input images and text prompts, DiffuseKronA consistently
outperforms existing models, producing diverse images of higher quality with
improved fidelity and a more accurate color distribution of objects, all the
while upholding exceptional parameter efficiency, thus presenting a substantial
advancement in the field of T2I generative modeling. Our project page,
consisting of links to the code, and pre-trained checkpoints, is available at
https://diffusekrona.github.io/{https://diffusekrona.github.io/}.