DiffuseKronA:パーソナライズド拡散モデルのためのパラメータ効率の良いファインチューニング手法
DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized Diffusion Model
February 27, 2024
著者: Shyam Marjit, Harshit Singh, Nityanand Mathur, Sayak Paul, Chia-Mu Yu, Pin-Yu Chen
cs.AI
要旨
主題駆動型テキストから画像(T2I)生成モデルの分野では、DreamBoothやBLIP-Diffusionなどの最近の進展が印象的な結果をもたらしているものの、集中的なファインチューニングの必要性と膨大なパラメータ要件による制限に直面しています。DreamBooth内の低ランク適応(LoRA)モジュールは学習可能なパラメータを削減するものの、ハイパーパラメータに対する顕著な感度を導入し、パラメータ効率とT2Iパーソナライズド画像合成の品質の間で妥協を強いられます。これらの制約に対処するため、我々は\textit{DiffuseKronA}を提案します。これは、クロネッカー積に基づく新しい適応モジュールであり、LoRA-DreamBoothと比較して35%、元のDreamBoothと比較して99.947%のパラメータ数を大幅に削減するだけでなく、画像合成の品質も向上させます。重要な点として、DiffuseKronAはハイパーパラメータ感度の問題を緩和し、広範なハイパーパラメータ範囲で一貫して高品質な生成を実現し、これにより、大規模なファインチューニングの必要性を低減します。さらに、より制御可能な分解により、DiffuseKronAはより解釈可能であり、LoRA-DreamBoothと同等の結果を達成しながら最大50%の削減を実現することさえ可能です。多様で複雑な入力画像とテキストプロンプトに対して評価されたDiffuseKronAは、既存のモデルを一貫して上回り、忠実度が向上し、オブジェクトの色分布がより正確な高品質な多様な画像を生成し、同時に卓越したパラメータ効率を維持します。これにより、T2I生成モデリングの分野において大きな進展をもたらします。我々のプロジェクトページには、コードと事前学習済みチェックポイントへのリンクが含まれており、https://diffusekrona.github.io/{https://diffusekrona.github.io/}で利用可能です。
English
In the realm of subject-driven text-to-image (T2I) generative models, recent
developments like DreamBooth and BLIP-Diffusion have led to impressive results
yet encounter limitations due to their intensive fine-tuning demands and
substantial parameter requirements. While the low-rank adaptation (LoRA) module
within DreamBooth offers a reduction in trainable parameters, it introduces a
pronounced sensitivity to hyperparameters, leading to a compromise between
parameter efficiency and the quality of T2I personalized image synthesis.
Addressing these constraints, we introduce \textit{DiffuseKronA}, a
novel Kronecker product-based adaptation module that not only significantly
reduces the parameter count by 35\% and 99.947\% compared to LoRA-DreamBooth
and the original DreamBooth, respectively, but also enhances the quality of
image synthesis. Crucially, DiffuseKronA mitigates the issue of
hyperparameter sensitivity, delivering consistent high-quality generations
across a wide range of hyperparameters, thereby diminishing the necessity for
extensive fine-tuning. Furthermore, a more controllable decomposition makes
DiffuseKronA more interpretable and even can achieve up to a 50\%
reduction with results comparable to LoRA-Dreambooth. Evaluated against diverse
and complex input images and text prompts, DiffuseKronA consistently
outperforms existing models, producing diverse images of higher quality with
improved fidelity and a more accurate color distribution of objects, all the
while upholding exceptional parameter efficiency, thus presenting a substantial
advancement in the field of T2I generative modeling. Our project page,
consisting of links to the code, and pre-trained checkpoints, is available at
https://diffusekrona.github.io/{https://diffusekrona.github.io/}.