UniFL: Migliorare Stable Diffusion attraverso l'Apprendimento Unificato con Feedback

Abstract

I modelli di diffusione hanno rivoluzionato il campo della generazione di immagini, portando alla proliferazione di modelli di alta qualità e a una vasta gamma di applicazioni downstream. Tuttavia, nonostante questi significativi progressi, le soluzioni competitive attuali continuano a soffrire di diverse limitazioni, tra cui una qualità visiva inferiore, una mancanza di appeal estetico e un'inferenza inefficiente, senza una soluzione completa all'orizzonte. Per affrontare queste sfide, presentiamo UniFL, un framework unificato che sfrutta l'apprendimento basato sul feedback per migliorare in modo completo i modelli di diffusione. UniFL si distingue come una soluzione universale, efficace e generalizzabile applicabile a vari modelli di diffusione, come SD1.5 e SDXL. In particolare, UniFL incorpora tre componenti chiave: l'apprendimento basato sul feedback percettivo, che migliora la qualità visiva; l'apprendimento basato sul feedback disaccoppiato, che migliora l'appeal estetico; e l'apprendimento basato sul feedback avversario, che ottimizza la velocità di inferenza. Esperimenti approfonditi e ampi studi sugli utenti convalidano la performance superiore del nostro metodo proposto nel migliorare sia la qualità dei modelli generati che la loro accelerazione. Ad esempio, UniFL supera ImageReward del 17% nella preferenza degli utenti in termini di qualità di generazione e supera LCM e SDXL Turbo rispettivamente del 57% e del 20% nell'inferenza a 4 passi. Inoltre, abbiamo verificato l'efficacia del nostro approccio in task downstream, tra cui Lora, ControlNet e AnimateDiff.

English

Diffusion models have revolutionized the field of image generation, leading to the proliferation of high-quality models and diverse downstream applications. However, despite these significant advancements, the current competitive solutions still suffer from several limitations, including inferior visual quality, a lack of aesthetic appeal, and inefficient inference, without a comprehensive solution in sight. To address these challenges, we present UniFL, a unified framework that leverages feedback learning to enhance diffusion models comprehensively. UniFL stands out as a universal, effective, and generalizable solution applicable to various diffusion models, such as SD1.5 and SDXL. Notably, UniFL incorporates three key components: perceptual feedback learning, which enhances visual quality; decoupled feedback learning, which improves aesthetic appeal; and adversarial feedback learning, which optimizes inference speed. In-depth experiments and extensive user studies validate the superior performance of our proposed method in enhancing both the quality of generated models and their acceleration. For instance, UniFL surpasses ImageReward by 17% user preference in terms of generation quality and outperforms LCM and SDXL Turbo by 57% and 20% in 4-step inference. Moreover, we have verified the efficacy of our approach in downstream tasks, including Lora, ControlNet, and AnimateDiff.

UniFL: Migliorare Stable Diffusion attraverso l'Apprendimento Unificato con Feedback

UniFL: Improve Stable Diffusion via Unified Feedback Learning

Abstract

Support