IterComp: Aprendizagem de Feedback Consciente da Composição Iterativa a partir de um Modelo de Galeria para Geração de Texto-para-Imagem

Resumo

Modelos avançados de difusão como RPG, Difusão Estável 3 e FLUX têm avançado significativamente na geração de texto para imagem de composição. No entanto, esses métodos geralmente apresentam pontos fortes distintos para a geração de composição, com alguns se destacando no tratamento de ligação de atributos e outros em relacionamentos espaciais. Essa disparidade destaca a necessidade de uma abordagem que possa aproveitar os pontos fortes complementares de vários modelos para melhorar abrangentemente a capacidade de composição. Para isso, apresentamos o IterComp, um novo framework que agrega preferências de modelo conscientes da composição de vários modelos e emprega uma abordagem de aprendizado de feedback iterativo para aprimorar a geração composicional. Especificamente, curamos uma galeria de seis poderosos modelos de difusão de código aberto e avaliamos suas três principais métricas composicionais: ligação de atributos, relacionamentos espaciais e relacionamentos não espaciais. Com base nessas métricas, desenvolvemos um conjunto de dados de preferência de modelo consciente da composição composto por inúmeras duplas de classificação de imagem para treinar modelos de recompensa conscientes da composição. Em seguida, propomos um método de aprendizado de feedback iterativo para aprimorar a composicionalidade de maneira em circuito fechado, permitindo o autorefinamento progressivo tanto do modelo de difusão base quanto dos modelos de recompensa ao longo de várias iterações. Uma prova teórica demonstra a eficácia e experimentos extensivos mostram nossa superioridade significativa em relação a métodos anteriores de última geração (por exemplo, Omost e FLUX), especialmente na composição de objetos de várias categorias e alinhamento semântico complexo. O IterComp abre novas oportunidades de pesquisa em aprendizado de feedback de recompensa para modelos de difusão e geração composicional. Código: https://github.com/YangLing0818/IterComp

English

Advanced diffusion models like RPG, Stable Diffusion 3 and FLUX have made notable strides in compositional text-to-image generation. However, these methods typically exhibit distinct strengths for compositional generation, with some excelling in handling attribute binding and others in spatial relationships. This disparity highlights the need for an approach that can leverage the complementary strengths of various models to comprehensively improve the composition capability. To this end, we introduce IterComp, a novel framework that aggregates composition-aware model preferences from multiple models and employs an iterative feedback learning approach to enhance compositional generation. Specifically, we curate a gallery of six powerful open-source diffusion models and evaluate their three key compositional metrics: attribute binding, spatial relationships, and non-spatial relationships. Based on these metrics, we develop a composition-aware model preference dataset comprising numerous image-rank pairs to train composition-aware reward models. Then, we propose an iterative feedback learning method to enhance compositionality in a closed-loop manner, enabling the progressive self-refinement of both the base diffusion model and reward models over multiple iterations. Theoretical proof demonstrates the effectiveness and extensive experiments show our significant superiority over previous SOTA methods (e.g., Omost and FLUX), particularly in multi-category object composition and complex semantic alignment. IterComp opens new research avenues in reward feedback learning for diffusion models and compositional generation. Code: https://github.com/YangLing0818/IterComp

IterComp: Aprendizagem de Feedback Consciente da Composição Iterativa a partir de um Modelo de Galeria para Geração de Texto-para-Imagem

IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation

Resumo

Support