FABRIC: Personalización de Modelos de Difusión con Retroalimentación Iterativa
FABRIC: Personalizing Diffusion Models with Iterative Feedback
July 19, 2023
Autores: Dimitri von Rütte, Elisabetta Fedele, Jonathan Thomm, Lukas Wolf
cs.AI
Resumen
En una era donde la generación de contenido visual está cada vez más impulsada por el aprendizaje automático, la integración de retroalimentación humana en los modelos generativos presenta oportunidades significativas para mejorar la experiencia del usuario y la calidad de los resultados. Este estudio explora estrategias para incorporar retroalimentación humana iterativa en el proceso generativo de modelos de difusión basados en texto a imagen. Proponemos FABRIC, un enfoque que no requiere entrenamiento y es aplicable a una amplia gama de modelos de difusión populares, el cual aprovecha la capa de auto-atención presente en las arquitecturas más utilizadas para condicionar el proceso de difusión en un conjunto de imágenes de retroalimentación. Para garantizar una evaluación rigurosa de nuestro enfoque, introducimos una metodología de evaluación integral, ofreciendo un mecanismo robusto para cuantificar el rendimiento de los modelos generativos visuales que integran retroalimentación humana. Demostramos que los resultados de generación mejoran a través de múltiples rondas de retroalimentación iterativa mediante un análisis exhaustivo, optimizando implícitamente preferencias arbitrarias del usuario. Las aplicaciones potenciales de estos hallazgos se extienden a campos como la creación de contenido personalizado y la personalización.
English
In an era where visual content generation is increasingly driven by machine
learning, the integration of human feedback into generative models presents
significant opportunities for enhancing user experience and output quality.
This study explores strategies for incorporating iterative human feedback into
the generative process of diffusion-based text-to-image models. We propose
FABRIC, a training-free approach applicable to a wide range of popular
diffusion models, which exploits the self-attention layer present in the most
widely used architectures to condition the diffusion process on a set of
feedback images. To ensure a rigorous assessment of our approach, we introduce
a comprehensive evaluation methodology, offering a robust mechanism to quantify
the performance of generative visual models that integrate human feedback. We
show that generation results improve over multiple rounds of iterative feedback
through exhaustive analysis, implicitly optimizing arbitrary user preferences.
The potential applications of these findings extend to fields such as
personalized content creation and customization.