ChatPaper.aiChatPaper

UniFL:統一フィードバック学習によるStable Diffusionの改善

UniFL: Improve Stable Diffusion via Unified Feedback Learning

April 8, 2024
著者: Jiacheng Zhang, Jie Wu, Yuxi Ren, Xin Xia, Huafeng Kuang, Pan Xie, Jiashi Li, Xuefeng Xiao, Weilin Huang, Min Zheng, Lean Fu, Guanbin Li
cs.AI

要旨

拡散モデルは画像生成の分野に革命をもたらし、高品質なモデルの普及と多様な下流アプリケーションの拡大を牽引してきました。しかし、これらの大きな進歩にもかかわらず、現在の競合ソリューションは依然としていくつかの課題を抱えており、視覚品質の低さ、美的魅力の欠如、非効率な推論などが包括的な解決策を見出せずにいます。これらの課題に対処するため、我々はフィードバック学習を活用して拡散モデルを包括的に強化する統一フレームワーク「UniFL」を提案します。UniFLは、SD1.5やSDXLなど様々な拡散モデルに適用可能な、普遍的で効果的かつ汎用性の高いソリューションとして際立っています。特に、UniFLは以下の3つの主要コンポーネントを組み込んでいます:視覚品質を向上させる知覚的フィードバック学習、美的魅力を高める分離型フィードバック学習、推論速度を最適化する敵対的フィードバック学習です。詳細な実験と広範なユーザー調査により、提案手法が生成モデルの品質と加速の両面で優れた性能を発揮することが検証されました。例えば、UniFLは生成品質においてImageRewardを17%上回るユーザー選好度を示し、4ステップ推論ではLCMとSDXL Turboをそれぞれ57%と20%上回りました。さらに、Lora、ControlNet、AnimateDiffなどの下流タスクにおけるアプローチの有効性も確認されています。
English
Diffusion models have revolutionized the field of image generation, leading to the proliferation of high-quality models and diverse downstream applications. However, despite these significant advancements, the current competitive solutions still suffer from several limitations, including inferior visual quality, a lack of aesthetic appeal, and inefficient inference, without a comprehensive solution in sight. To address these challenges, we present UniFL, a unified framework that leverages feedback learning to enhance diffusion models comprehensively. UniFL stands out as a universal, effective, and generalizable solution applicable to various diffusion models, such as SD1.5 and SDXL. Notably, UniFL incorporates three key components: perceptual feedback learning, which enhances visual quality; decoupled feedback learning, which improves aesthetic appeal; and adversarial feedback learning, which optimizes inference speed. In-depth experiments and extensive user studies validate the superior performance of our proposed method in enhancing both the quality of generated models and their acceleration. For instance, UniFL surpasses ImageReward by 17% user preference in terms of generation quality and outperforms LCM and SDXL Turbo by 57% and 20% in 4-step inference. Moreover, we have verified the efficacy of our approach in downstream tasks, including Lora, ControlNet, and AnimateDiff.

Summary

AI-Generated Summary

PDF261December 15, 2024