IterComp: Итеративное обучение с обратной связью, учитывающее композицию, из модельной галереи для генерации текста в изображения.
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation
October 9, 2024
Авторы: Xinchen Zhang, Ling Yang, Guohao Li, Yaqi Cai, Jiake Xie, Yong Tang, Yujiu Yang, Mengdi Wang, Bin Cui
cs.AI
Аннотация
Продвинутые модели диффузии, такие как RPG, Stable Diffusion 3 и FLUX, сделали значительные шаги в области генерации текста в изображение на основе композиции. Однако эти методы обычно проявляют различные сильные стороны в композиционной генерации, преуспевая либо в обработке привязки атрибутов, либо в пространственных отношениях. Это различие подчеркивает необходимость подхода, способного использовать дополняющие сильные стороны различных моделей для всестороннего улучшения возможностей композиции. В этой связи мы представляем IterComp, новую концепцию, которая агрегирует предпочтения моделей, осведомленных о композиции, из нескольких моделей и использует итеративный метод обучения обратной связи для улучшения композиционной генерации. В частности, мы составляем галерею из шести мощных моделей диффузии с открытым исходным кодом и оцениваем их три ключевых композиционных метрики: привязка атрибутов, пространственные отношения и не-пространственные отношения. На основе этих метрик мы разрабатываем набор данных предпочтений моделей, осведомленных о композиции, включающий множество пар изображение-рейтинг для обучения моделей вознаграждения, осведомленных о композиции. Затем мы предлагаем метод итеративного обучения обратной связи для улучшения композиционности в замкнутом цикле, обеспечивая постепенное самосовершенствование как базовой модели диффузии, так и моделей вознаграждения за многократные итерации. Теоретическое доказательство демонстрирует эффективность, а обширные эксперименты показывают наше значительное превосходство над предыдущими методами SOTA (например, Omost и FLUX), особенно в составлении объектов из нескольких категорий и сложном семантическом выравнивании. IterComp открывает новые исследовательские пути в области обучения обратной связи для моделей диффузии и композиционной генерации. Код: https://github.com/YangLing0818/IterComp
English
Advanced diffusion models like RPG, Stable Diffusion 3 and FLUX have made
notable strides in compositional text-to-image generation. However, these
methods typically exhibit distinct strengths for compositional generation, with
some excelling in handling attribute binding and others in spatial
relationships. This disparity highlights the need for an approach that can
leverage the complementary strengths of various models to comprehensively
improve the composition capability. To this end, we introduce IterComp, a novel
framework that aggregates composition-aware model preferences from multiple
models and employs an iterative feedback learning approach to enhance
compositional generation. Specifically, we curate a gallery of six powerful
open-source diffusion models and evaluate their three key compositional
metrics: attribute binding, spatial relationships, and non-spatial
relationships. Based on these metrics, we develop a composition-aware model
preference dataset comprising numerous image-rank pairs to train
composition-aware reward models. Then, we propose an iterative feedback
learning method to enhance compositionality in a closed-loop manner, enabling
the progressive self-refinement of both the base diffusion model and reward
models over multiple iterations. Theoretical proof demonstrates the
effectiveness and extensive experiments show our significant superiority over
previous SOTA methods (e.g., Omost and FLUX), particularly in multi-category
object composition and complex semantic alignment. IterComp opens new research
avenues in reward feedback learning for diffusion models and compositional
generation. Code: https://github.com/YangLing0818/IterCompSummary
AI-Generated Summary