FABRIC: Personalização de Modelos de Difusão com Feedback Iterativo
FABRIC: Personalizing Diffusion Models with Iterative Feedback
July 19, 2023
Autores: Dimitri von Rütte, Elisabetta Fedele, Jonathan Thomm, Lukas Wolf
cs.AI
Resumo
Em uma era onde a geração de conteúdo visual é cada vez mais impulsionada por
aprendizado de máquina, a integração de feedback humano em modelos generativos
apresenta oportunidades significativas para aprimorar a experiência do usuário
e a qualidade dos resultados. Este estudo explora estratégias para incorporar
feedback humano iterativo no processo generativo de modelos de texto para
imagem baseados em difusão. Propomos o FABRIC, uma abordagem livre de
treinamento aplicável a uma ampla gama de modelos de difusão populares, que
explora a camada de auto-atenção presente nas arquiteturas mais utilizadas para
condicionar o processo de difusão a um conjunto de imagens de feedback. Para
garantir uma avaliação rigorosa de nossa abordagem, introduzimos uma
metodologia de avaliação abrangente, oferecendo um mecanismo robusto para
quantificar o desempenho de modelos visuais generativos que integram feedback
humano. Demonstramos que os resultados de geração melhoram ao longo de
múltiplas rodadas de feedback iterativo por meio de análises exaustivas,
otimizando implicitamente preferências arbitrárias do usuário. As aplicações
potenciais dessas descobertas se estendem a áreas como criação de conteúdo
personalizado e customização.
English
In an era where visual content generation is increasingly driven by machine
learning, the integration of human feedback into generative models presents
significant opportunities for enhancing user experience and output quality.
This study explores strategies for incorporating iterative human feedback into
the generative process of diffusion-based text-to-image models. We propose
FABRIC, a training-free approach applicable to a wide range of popular
diffusion models, which exploits the self-attention layer present in the most
widely used architectures to condition the diffusion process on a set of
feedback images. To ensure a rigorous assessment of our approach, we introduce
a comprehensive evaluation methodology, offering a robust mechanism to quantify
the performance of generative visual models that integrate human feedback. We
show that generation results improve over multiple rounds of iterative feedback
through exhaustive analysis, implicitly optimizing arbitrary user preferences.
The potential applications of these findings extend to fields such as
personalized content creation and customization.