FABRIC: Персонализация диффузионных моделей с помощью итеративной обратной связи
FABRIC: Personalizing Diffusion Models with Iterative Feedback
July 19, 2023
Авторы: Dimitri von Rütte, Elisabetta Fedele, Jonathan Thomm, Lukas Wolf
cs.AI
Аннотация
В эпоху, когда генерация визуального контента всё больше определяется машинным обучением, интеграция обратной связи от человека в генеративные модели открывает значительные возможности для улучшения пользовательского опыта и качества результатов. В данном исследовании рассматриваются стратегии включения итеративной обратной связи в процесс генерации диффузионных моделей, преобразующих текст в изображение. Мы предлагаем FABRIC — подход, не требующий обучения и применимый к широкому спектру популярных диффузионных моделей, который использует слой self-attention, присутствующий в наиболее распространённых архитектурах, для управления процессом диффузии на основе набора изображений с обратной связью. Для обеспечения строгой оценки нашего подхода мы вводим комплексную методологию оценки, предлагающую надёжный механизм для количественного измерения производительности генеративных визуальных моделей, интегрирующих обратную связь от человека. Мы демонстрируем, что результаты генерации улучшаются в ходе нескольких раундов итеративной обратной связи, что неявно оптимизирует произвольные предпочтения пользователей. Потенциальные применения этих результатов охватывают такие области, как персонализированное создание контента и его кастомизация.
English
In an era where visual content generation is increasingly driven by machine
learning, the integration of human feedback into generative models presents
significant opportunities for enhancing user experience and output quality.
This study explores strategies for incorporating iterative human feedback into
the generative process of diffusion-based text-to-image models. We propose
FABRIC, a training-free approach applicable to a wide range of popular
diffusion models, which exploits the self-attention layer present in the most
widely used architectures to condition the diffusion process on a set of
feedback images. To ensure a rigorous assessment of our approach, we introduce
a comprehensive evaluation methodology, offering a robust mechanism to quantify
the performance of generative visual models that integrate human feedback. We
show that generation results improve over multiple rounds of iterative feedback
through exhaustive analysis, implicitly optimizing arbitrary user preferences.
The potential applications of these findings extend to fields such as
personalized content creation and customization.