FABRIC : Personnalisation de modèles de diffusion par feedback itératif
FABRIC: Personalizing Diffusion Models with Iterative Feedback
July 19, 2023
Auteurs: Dimitri von Rütte, Elisabetta Fedele, Jonathan Thomm, Lukas Wolf
cs.AI
Résumé
À une époque où la génération de contenu visuel est de plus en plus pilotée par l'apprentissage automatique, l'intégration de retours humains dans les modèles génératifs offre des opportunités significatives pour améliorer l'expérience utilisateur et la qualité des résultats. Cette étude explore des stratégies pour incorporer des retours humains itératifs dans le processus génératif des modèles de diffusion texte-à-image. Nous proposons FABRIC, une approche sans entraînement applicable à un large éventail de modèles de diffusion populaires, qui exploite la couche d'auto-attention présente dans les architectures les plus utilisées pour conditionner le processus de diffusion sur un ensemble d'images de retour. Pour garantir une évaluation rigoureuse de notre approche, nous introduisons une méthodologie d'évaluation complète, offrant un mécanisme robuste pour quantifier la performance des modèles génératifs visuels intégrant des retours humains. Nous démontrons que les résultats de génération s'améliorent sur plusieurs cycles de retours itératifs grâce à une analyse exhaustive, optimisant implicitement les préférences arbitraires des utilisateurs. Les applications potentielles de ces découvertes s'étendent à des domaines tels que la création de contenu personnalisé et la personnalisation.
English
In an era where visual content generation is increasingly driven by machine
learning, the integration of human feedback into generative models presents
significant opportunities for enhancing user experience and output quality.
This study explores strategies for incorporating iterative human feedback into
the generative process of diffusion-based text-to-image models. We propose
FABRIC, a training-free approach applicable to a wide range of popular
diffusion models, which exploits the self-attention layer present in the most
widely used architectures to condition the diffusion process on a set of
feedback images. To ensure a rigorous assessment of our approach, we introduce
a comprehensive evaluation methodology, offering a robust mechanism to quantify
the performance of generative visual models that integrate human feedback. We
show that generation results improve over multiple rounds of iterative feedback
through exhaustive analysis, implicitly optimizing arbitrary user preferences.
The potential applications of these findings extend to fields such as
personalized content creation and customization.