IterComp: Aprendizaje de retroalimentación consciente de la composición iterativa a partir de la galería de modelos para generación de texto a imagen.

Resumen

Los modelos avanzados de difusión como RPG, Difusión Estable 3 y FLUX han logrado avances notables en la generación de texto a imagen de manera compositiva. Sin embargo, estos métodos suelen exhibir fortalezas distintas para la generación compositiva, con algunos destacando en el manejo de la unión de atributos y otros en las relaciones espaciales. Esta disparidad resalta la necesidad de un enfoque que pueda aprovechar las fortalezas complementarias de varios modelos para mejorar de manera integral la capacidad de composición. Con este fin, presentamos IterComp, un marco novedoso que agrega preferencias de modelo con conciencia de composición de múltiples modelos y emplea un enfoque de aprendizaje de retroalimentación iterativa para mejorar la generación compositiva. Específicamente, creamos una galería de seis potentes modelos de difusión de código abierto y evaluamos sus tres métricas compositivas clave: unión de atributos, relaciones espaciales y relaciones no espaciales. Basándonos en estas métricas, desarrollamos un conjunto de datos de preferencias de modelo con conciencia de composición que incluye numerosos pares de imagen-rango para entrenar modelos de recompensa con conciencia de composición. Luego, proponemos un método de aprendizaje de retroalimentación iterativa para mejorar la composicionalidad de manera cíclica, permitiendo el automejoramiento progresivo tanto del modelo base de difusión como de los modelos de recompensa a lo largo de múltiples iteraciones. Una prueba teórica demuestra la efectividad y experimentos extensos muestran nuestra notable superioridad sobre métodos anteriores de vanguardia (por ejemplo, Omost y FLUX), especialmente en la composición de objetos de múltiples categorías y en la alineación semántica compleja. IterComp abre nuevas vías de investigación en el aprendizaje de retroalimentación de recompensa para modelos de difusión y generación compositiva. Código: https://github.com/YangLing0818/IterComp

English

Advanced diffusion models like RPG, Stable Diffusion 3 and FLUX have made notable strides in compositional text-to-image generation. However, these methods typically exhibit distinct strengths for compositional generation, with some excelling in handling attribute binding and others in spatial relationships. This disparity highlights the need for an approach that can leverage the complementary strengths of various models to comprehensively improve the composition capability. To this end, we introduce IterComp, a novel framework that aggregates composition-aware model preferences from multiple models and employs an iterative feedback learning approach to enhance compositional generation. Specifically, we curate a gallery of six powerful open-source diffusion models and evaluate their three key compositional metrics: attribute binding, spatial relationships, and non-spatial relationships. Based on these metrics, we develop a composition-aware model preference dataset comprising numerous image-rank pairs to train composition-aware reward models. Then, we propose an iterative feedback learning method to enhance compositionality in a closed-loop manner, enabling the progressive self-refinement of both the base diffusion model and reward models over multiple iterations. Theoretical proof demonstrates the effectiveness and extensive experiments show our significant superiority over previous SOTA methods (e.g., Omost and FLUX), particularly in multi-category object composition and complex semantic alignment. IterComp opens new research avenues in reward feedback learning for diffusion models and compositional generation. Code: https://github.com/YangLing0818/IterComp

IterComp: Aprendizaje de retroalimentación consciente de la composición iterativa a partir de la galería de modelos para generación de texto a imagen.

IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation

Resumen

Support