UniFL: 통합 피드백 학습을 통해 Stable Diffusion 개선하기
UniFL: Improve Stable Diffusion via Unified Feedback Learning
April 8, 2024
저자: Jiacheng Zhang, Jie Wu, Yuxi Ren, Xin Xia, Huafeng Kuang, Pan Xie, Jiashi Li, Xuefeng Xiao, Weilin Huang, Min Zheng, Lean Fu, Guanbin Li
cs.AI
초록
디퓨전 모델은 이미지 생성 분야에 혁신을 가져와 고품질 모델과 다양한 다운스트림 애플리케이션의 확산을 이끌었습니다. 그러나 이러한 상당한 발전에도 불구하고, 현재의 경쟁력 있는 솔루션들은 여전히 열등한 시각적 품질, 미적 매력의 부족, 비효율적인 추론 등 여러 한계를 겪고 있으며, 이를 포괄적으로 해결할 수 있는 방법이 없는 실정입니다. 이러한 문제를 해결하기 위해, 우리는 피드백 학습을 활용하여 디퓨전 모델을 종합적으로 개선하는 통합 프레임워크인 UniFL을 제안합니다. UniFL은 SD1.5 및 SDXL과 같은 다양한 디퓨전 모델에 적용 가능한 보편적이고 효과적이며 일반화 가능한 솔루션으로 두드러집니다. 특히, UniFL은 시각적 품질을 향상시키는 지각적 피드백 학습, 미적 매력을 개선하는 디커플드 피드백 학습, 추론 속도를 최적화하는 적대적 피드백 학습이라는 세 가지 핵심 구성 요소를 포함합니다. 심층 실험과 광범위한 사용자 연구를 통해 우리가 제안한 방법이 생성 모델의 품질과 가속화 모두에서 우수한 성능을 보임을 검증했습니다. 예를 들어, UniFL은 생성 품질 측면에서 ImageReward보다 17% 더 높은 사용자 선호도를 보였으며, 4단계 추론에서 LCM 및 SDXL Turbo를 각각 57%와 20% 앞섰습니다. 또한, 우리는 Lora, ControlNet, AnimateDiff와 같은 다운스트림 작업에서도 우리의 접근 방식의 효율성을 검증했습니다.
English
Diffusion models have revolutionized the field of image generation, leading
to the proliferation of high-quality models and diverse downstream
applications. However, despite these significant advancements, the current
competitive solutions still suffer from several limitations, including inferior
visual quality, a lack of aesthetic appeal, and inefficient inference, without
a comprehensive solution in sight. To address these challenges, we present
UniFL, a unified framework that leverages feedback learning to enhance
diffusion models comprehensively. UniFL stands out as a universal, effective,
and generalizable solution applicable to various diffusion models, such as
SD1.5 and SDXL. Notably, UniFL incorporates three key components: perceptual
feedback learning, which enhances visual quality; decoupled feedback learning,
which improves aesthetic appeal; and adversarial feedback learning, which
optimizes inference speed. In-depth experiments and extensive user studies
validate the superior performance of our proposed method in enhancing both the
quality of generated models and their acceleration. For instance, UniFL
surpasses ImageReward by 17% user preference in terms of generation quality and
outperforms LCM and SDXL Turbo by 57% and 20% in 4-step inference. Moreover, we
have verified the efficacy of our approach in downstream tasks, including Lora,
ControlNet, and AnimateDiff.Summary
AI-Generated Summary