UniFL: Melhorando o Stable Diffusion por meio de Aprendizado Unificado de Feedback
UniFL: Improve Stable Diffusion via Unified Feedback Learning
April 8, 2024
Autores: Jiacheng Zhang, Jie Wu, Yuxi Ren, Xin Xia, Huafeng Kuang, Pan Xie, Jiashi Li, Xuefeng Xiao, Weilin Huang, Min Zheng, Lean Fu, Guanbin Li
cs.AI
Resumo
Os modelos de difusão revolucionaram o campo de geração de imagens, levando à proliferação de modelos de alta qualidade e diversas aplicações subsequentes. No entanto, apesar desses avanços significativos, as soluções competitivas atuais ainda sofrem com várias limitações, incluindo qualidade visual inferior, falta de apelo estético e inferência ineficiente, sem uma solução abrangente à vista. Para enfrentar esses desafios, apresentamos o UniFL, um framework unificado que aproveita o aprendizado por feedback para aprimorar os modelos de difusão de forma abrangente. O UniFL se destaca como uma solução universal, eficaz e generalizável, aplicável a diversos modelos de difusão, como SD1.5 e SDXL. Notavelmente, o UniFL incorpora três componentes principais: aprendizado por feedback perceptual, que melhora a qualidade visual; aprendizado por feedback desacoplado, que aprimora o apelo estético; e aprendizado por feedback adversarial, que otimiza a velocidade de inferência. Experimentos detalhados e extensos estudos com usuários validam o desempenho superior do nosso método proposto, tanto na melhoria da qualidade dos modelos gerados quanto na sua aceleração. Por exemplo, o UniFL supera o ImageReward em 17% na preferência do usuário em termos de qualidade de geração e supera o LCM e o SDXL Turbo em 57% e 20%, respectivamente, na inferência em 4 passos. Além disso, verificamos a eficácia da nossa abordagem em tarefas subsequentes, incluindo Lora, ControlNet e AnimateDiff.
English
Diffusion models have revolutionized the field of image generation, leading
to the proliferation of high-quality models and diverse downstream
applications. However, despite these significant advancements, the current
competitive solutions still suffer from several limitations, including inferior
visual quality, a lack of aesthetic appeal, and inefficient inference, without
a comprehensive solution in sight. To address these challenges, we present
UniFL, a unified framework that leverages feedback learning to enhance
diffusion models comprehensively. UniFL stands out as a universal, effective,
and generalizable solution applicable to various diffusion models, such as
SD1.5 and SDXL. Notably, UniFL incorporates three key components: perceptual
feedback learning, which enhances visual quality; decoupled feedback learning,
which improves aesthetic appeal; and adversarial feedback learning, which
optimizes inference speed. In-depth experiments and extensive user studies
validate the superior performance of our proposed method in enhancing both the
quality of generated models and their acceleration. For instance, UniFL
surpasses ImageReward by 17% user preference in terms of generation quality and
outperforms LCM and SDXL Turbo by 57% and 20% in 4-step inference. Moreover, we
have verified the efficacy of our approach in downstream tasks, including Lora,
ControlNet, and AnimateDiff.