FABRIC: Personalisatie van diffusiemodellen met iteratieve feedback
FABRIC: Personalizing Diffusion Models with Iterative Feedback
July 19, 2023
Auteurs: Dimitri von Rütte, Elisabetta Fedele, Jonathan Thomm, Lukas Wolf
cs.AI
Samenvatting
In een tijdperk waarin de generatie van visuele inhoud steeds meer wordt aangedreven door machine learning, biedt de integratie van menselijke feedback in generatieve modellen aanzienlijke mogelijkheden om de gebruikerservaring en de outputkwaliteit te verbeteren. Deze studie onderzoekt strategieën voor het opnemen van iteratieve menselijke feedback in het generatieve proces van op diffusie gebaseerde tekst-naar-beeldmodellen. We stellen FABRIC voor, een trainingsvrije benadering die toepasbaar is op een breed scala aan populaire diffusiemodellen, en die gebruikmaakt van de self-attention-laag die aanwezig is in de meest gebruikte architecturen om het diffusieproces te conditioneren op een set feedbackbeelden. Om een rigoureuze beoordeling van onze aanpak te waarborgen, introduceren we een uitgebreide evaluatiemethodologie, die een robuust mechanisme biedt om de prestaties van generatieve visuele modellen die menselijke feedback integreren, te kwantificeren. We tonen aan dat generatieresultaten verbeteren over meerdere rondes van iteratieve feedback door middel van uitgebreide analyse, waarbij willekeurige gebruikersvoorkeuren impliciet worden geoptimaliseerd. De potentiële toepassingen van deze bevindingen strekken zich uit tot gebieden zoals gepersonaliseerde inhoudscreatie en -aanpassing.
English
In an era where visual content generation is increasingly driven by machine
learning, the integration of human feedback into generative models presents
significant opportunities for enhancing user experience and output quality.
This study explores strategies for incorporating iterative human feedback into
the generative process of diffusion-based text-to-image models. We propose
FABRIC, a training-free approach applicable to a wide range of popular
diffusion models, which exploits the self-attention layer present in the most
widely used architectures to condition the diffusion process on a set of
feedback images. To ensure a rigorous assessment of our approach, we introduce
a comprehensive evaluation methodology, offering a robust mechanism to quantify
the performance of generative visual models that integrate human feedback. We
show that generation results improve over multiple rounds of iterative feedback
through exhaustive analysis, implicitly optimizing arbitrary user preferences.
The potential applications of these findings extend to fields such as
personalized content creation and customization.