ChatPaper.aiChatPaper

DiffuseKronA: Un método de ajuste fino eficiente en parámetros para modelos de difusión personalizados

DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized Diffusion Model

February 27, 2024
Autores: Shyam Marjit, Harshit Singh, Nityanand Mathur, Sayak Paul, Chia-Mu Yu, Pin-Yu Chen
cs.AI

Resumen

En el ámbito de los modelos generativos de texto a imagen (T2I) centrados en sujetos, desarrollos recientes como DreamBooth y BLIP-Diffusion han logrado resultados impresionantes, pero enfrentan limitaciones debido a sus demandas intensivas de ajuste fino y sus requisitos sustanciales de parámetros. Si bien el módulo de adaptación de bajo rango (LoRA) dentro de DreamBooth ofrece una reducción en los parámetros entrenables, introduce una sensibilidad pronunciada a los hiperparámetros, lo que lleva a un compromiso entre la eficiencia de parámetros y la calidad de la síntesis de imágenes personalizadas T2I. Para abordar estas limitaciones, presentamos \textit{DiffuseKronA}, un novedoso módulo de adaptación basado en el producto de Kronecker que no solo reduce significativamente el número de parámetros en un 35\% y un 99.947\% en comparación con LoRA-DreamBooth y el DreamBooth original, respectivamente, sino que también mejora la calidad de la síntesis de imágenes. De manera crucial, DiffuseKronA mitiga el problema de la sensibilidad a los hiperparámetros, entregando generaciones de alta calidad consistentes en un amplio rango de hiperparámetros, reduciendo así la necesidad de un ajuste fino extensivo. Además, una descomposición más controlable hace que DiffuseKronA sea más interpretable e incluso puede lograr una reducción de hasta un 50\% con resultados comparables a LoRA-DreamBooth. Evaluado frente a imágenes de entrada y textos complejos y diversos, DiffuseKronA supera consistentemente a los modelos existentes, produciendo imágenes diversas de mayor calidad con una fidelidad mejorada y una distribución de colores más precisa de los objetos, todo mientras mantiene una eficiencia excepcional en los parámetros, lo que representa un avance sustancial en el campo de la modelización generativa T2I. Nuestra página del proyecto, que incluye enlaces al código y a los puntos de control preentrenados, está disponible en https://diffusekrona.github.io/{https://diffusekrona.github.io/}.
English
In the realm of subject-driven text-to-image (T2I) generative models, recent developments like DreamBooth and BLIP-Diffusion have led to impressive results yet encounter limitations due to their intensive fine-tuning demands and substantial parameter requirements. While the low-rank adaptation (LoRA) module within DreamBooth offers a reduction in trainable parameters, it introduces a pronounced sensitivity to hyperparameters, leading to a compromise between parameter efficiency and the quality of T2I personalized image synthesis. Addressing these constraints, we introduce \textit{DiffuseKronA}, a novel Kronecker product-based adaptation module that not only significantly reduces the parameter count by 35\% and 99.947\% compared to LoRA-DreamBooth and the original DreamBooth, respectively, but also enhances the quality of image synthesis. Crucially, DiffuseKronA mitigates the issue of hyperparameter sensitivity, delivering consistent high-quality generations across a wide range of hyperparameters, thereby diminishing the necessity for extensive fine-tuning. Furthermore, a more controllable decomposition makes DiffuseKronA more interpretable and even can achieve up to a 50\% reduction with results comparable to LoRA-Dreambooth. Evaluated against diverse and complex input images and text prompts, DiffuseKronA consistently outperforms existing models, producing diverse images of higher quality with improved fidelity and a more accurate color distribution of objects, all the while upholding exceptional parameter efficiency, thus presenting a substantial advancement in the field of T2I generative modeling. Our project page, consisting of links to the code, and pre-trained checkpoints, is available at https://diffusekrona.github.io/{https://diffusekrona.github.io/}.
PDF251December 15, 2024