UniFL: Migliorare Stable Diffusion attraverso l'Apprendimento Unificato con Feedback
UniFL: Improve Stable Diffusion via Unified Feedback Learning
April 8, 2024
Autori: Jiacheng Zhang, Jie Wu, Yuxi Ren, Xin Xia, Huafeng Kuang, Pan Xie, Jiashi Li, Xuefeng Xiao, Weilin Huang, Min Zheng, Lean Fu, Guanbin Li
cs.AI
Abstract
I modelli di diffusione hanno rivoluzionato il campo della generazione di immagini, portando alla proliferazione di modelli di alta qualità e a una vasta gamma di applicazioni downstream. Tuttavia, nonostante questi significativi progressi, le soluzioni competitive attuali continuano a soffrire di diverse limitazioni, tra cui una qualità visiva inferiore, una mancanza di appeal estetico e un'inferenza inefficiente, senza una soluzione completa all'orizzonte. Per affrontare queste sfide, presentiamo UniFL, un framework unificato che sfrutta l'apprendimento basato sul feedback per migliorare in modo completo i modelli di diffusione. UniFL si distingue come una soluzione universale, efficace e generalizzabile applicabile a vari modelli di diffusione, come SD1.5 e SDXL. In particolare, UniFL incorpora tre componenti chiave: l'apprendimento basato sul feedback percettivo, che migliora la qualità visiva; l'apprendimento basato sul feedback disaccoppiato, che migliora l'appeal estetico; e l'apprendimento basato sul feedback avversario, che ottimizza la velocità di inferenza. Esperimenti approfonditi e ampi studi sugli utenti convalidano la performance superiore del nostro metodo proposto nel migliorare sia la qualità dei modelli generati che la loro accelerazione. Ad esempio, UniFL supera ImageReward del 17% nella preferenza degli utenti in termini di qualità di generazione e supera LCM e SDXL Turbo rispettivamente del 57% e del 20% nell'inferenza a 4 passi. Inoltre, abbiamo verificato l'efficacia del nostro approccio in task downstream, tra cui Lora, ControlNet e AnimateDiff.
English
Diffusion models have revolutionized the field of image generation, leading
to the proliferation of high-quality models and diverse downstream
applications. However, despite these significant advancements, the current
competitive solutions still suffer from several limitations, including inferior
visual quality, a lack of aesthetic appeal, and inefficient inference, without
a comprehensive solution in sight. To address these challenges, we present
UniFL, a unified framework that leverages feedback learning to enhance
diffusion models comprehensively. UniFL stands out as a universal, effective,
and generalizable solution applicable to various diffusion models, such as
SD1.5 and SDXL. Notably, UniFL incorporates three key components: perceptual
feedback learning, which enhances visual quality; decoupled feedback learning,
which improves aesthetic appeal; and adversarial feedback learning, which
optimizes inference speed. In-depth experiments and extensive user studies
validate the superior performance of our proposed method in enhancing both the
quality of generated models and their acceleration. For instance, UniFL
surpasses ImageReward by 17% user preference in terms of generation quality and
outperforms LCM and SDXL Turbo by 57% and 20% in 4-step inference. Moreover, we
have verified the efficacy of our approach in downstream tasks, including Lora,
ControlNet, and AnimateDiff.