IterComp: Aprendizagem de Feedback Consciente da Composição Iterativa a partir de um Modelo de Galeria para Geração de Texto-para-Imagem
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation
October 9, 2024
Autores: Xinchen Zhang, Ling Yang, Guohao Li, Yaqi Cai, Jiake Xie, Yong Tang, Yujiu Yang, Mengdi Wang, Bin Cui
cs.AI
Resumo
Modelos avançados de difusão como RPG, Difusão Estável 3 e FLUX têm avançado significativamente na geração de texto para imagem de composição. No entanto, esses métodos geralmente apresentam pontos fortes distintos para a geração de composição, com alguns se destacando no tratamento de ligação de atributos e outros em relacionamentos espaciais. Essa disparidade destaca a necessidade de uma abordagem que possa aproveitar os pontos fortes complementares de vários modelos para melhorar abrangentemente a capacidade de composição. Para isso, apresentamos o IterComp, um novo framework que agrega preferências de modelo conscientes da composição de vários modelos e emprega uma abordagem de aprendizado de feedback iterativo para aprimorar a geração composicional. Especificamente, curamos uma galeria de seis poderosos modelos de difusão de código aberto e avaliamos suas três principais métricas composicionais: ligação de atributos, relacionamentos espaciais e relacionamentos não espaciais. Com base nessas métricas, desenvolvemos um conjunto de dados de preferência de modelo consciente da composição composto por inúmeras duplas de classificação de imagem para treinar modelos de recompensa conscientes da composição. Em seguida, propomos um método de aprendizado de feedback iterativo para aprimorar a composicionalidade de maneira em circuito fechado, permitindo o autorefinamento progressivo tanto do modelo de difusão base quanto dos modelos de recompensa ao longo de várias iterações. Uma prova teórica demonstra a eficácia e experimentos extensivos mostram nossa superioridade significativa em relação a métodos anteriores de última geração (por exemplo, Omost e FLUX), especialmente na composição de objetos de várias categorias e alinhamento semântico complexo. O IterComp abre novas oportunidades de pesquisa em aprendizado de feedback de recompensa para modelos de difusão e geração composicional. Código: https://github.com/YangLing0818/IterComp
English
Advanced diffusion models like RPG, Stable Diffusion 3 and FLUX have made
notable strides in compositional text-to-image generation. However, these
methods typically exhibit distinct strengths for compositional generation, with
some excelling in handling attribute binding and others in spatial
relationships. This disparity highlights the need for an approach that can
leverage the complementary strengths of various models to comprehensively
improve the composition capability. To this end, we introduce IterComp, a novel
framework that aggregates composition-aware model preferences from multiple
models and employs an iterative feedback learning approach to enhance
compositional generation. Specifically, we curate a gallery of six powerful
open-source diffusion models and evaluate their three key compositional
metrics: attribute binding, spatial relationships, and non-spatial
relationships. Based on these metrics, we develop a composition-aware model
preference dataset comprising numerous image-rank pairs to train
composition-aware reward models. Then, we propose an iterative feedback
learning method to enhance compositionality in a closed-loop manner, enabling
the progressive self-refinement of both the base diffusion model and reward
models over multiple iterations. Theoretical proof demonstrates the
effectiveness and extensive experiments show our significant superiority over
previous SOTA methods (e.g., Omost and FLUX), particularly in multi-category
object composition and complex semantic alignment. IterComp opens new research
avenues in reward feedback learning for diffusion models and compositional
generation. Code: https://github.com/YangLing0818/IterCompSummary
AI-Generated Summary