UniFL : Améliorer Stable Diffusion grâce à un apprentissage unifié par rétroaction
UniFL: Improve Stable Diffusion via Unified Feedback Learning
April 8, 2024
Auteurs: Jiacheng Zhang, Jie Wu, Yuxi Ren, Xin Xia, Huafeng Kuang, Pan Xie, Jiashi Li, Xuefeng Xiao, Weilin Huang, Min Zheng, Lean Fu, Guanbin Li
cs.AI
Résumé
Les modèles de diffusion ont révolutionné le domaine de la génération d'images, entraînant une prolifération de modèles de haute qualité et d'applications en aval diversifiées. Cependant, malgré ces avancées significatives, les solutions compétitives actuelles souffrent encore de plusieurs limitations, notamment une qualité visuelle inférieure, un manque d'attrait esthétique et une inférence inefficace, sans qu'une solution globale ne soit en vue. Pour relever ces défis, nous présentons UniFL, un cadre unifié qui exploite l'apprentissage par feedback pour améliorer de manière exhaustive les modèles de diffusion. UniFL se distingue comme une solution universelle, efficace et généralisable applicable à divers modèles de diffusion, tels que SD1.5 et SDXL. Notamment, UniFL intègre trois composants clés : l'apprentissage par feedback perceptuel, qui améliore la qualité visuelle ; l'apprentissage par feedback découplé, qui renforce l'attrait esthétique ; et l'apprentissage par feedback adversarial, qui optimise la vitesse d'inférence. Des expériences approfondies et des études utilisateurs étendues valident la performance supérieure de notre méthode proposée pour améliorer à la fois la qualité des modèles générés et leur accélération. Par exemple, UniFL surpasse ImageReward de 17 % en termes de préférence utilisateur pour la qualité de génération et dépasse LCM et SDXL Turbo de 57 % et 20 % dans une inférence en 4 étapes. De plus, nous avons vérifié l'efficacité de notre approche dans des tâches en aval, notamment Lora, ControlNet et AnimateDiff.
English
Diffusion models have revolutionized the field of image generation, leading
to the proliferation of high-quality models and diverse downstream
applications. However, despite these significant advancements, the current
competitive solutions still suffer from several limitations, including inferior
visual quality, a lack of aesthetic appeal, and inefficient inference, without
a comprehensive solution in sight. To address these challenges, we present
UniFL, a unified framework that leverages feedback learning to enhance
diffusion models comprehensively. UniFL stands out as a universal, effective,
and generalizable solution applicable to various diffusion models, such as
SD1.5 and SDXL. Notably, UniFL incorporates three key components: perceptual
feedback learning, which enhances visual quality; decoupled feedback learning,
which improves aesthetic appeal; and adversarial feedback learning, which
optimizes inference speed. In-depth experiments and extensive user studies
validate the superior performance of our proposed method in enhancing both the
quality of generated models and their acceleration. For instance, UniFL
surpasses ImageReward by 17% user preference in terms of generation quality and
outperforms LCM and SDXL Turbo by 57% and 20% in 4-step inference. Moreover, we
have verified the efficacy of our approach in downstream tasks, including Lora,
ControlNet, and AnimateDiff.Summary
AI-Generated Summary