IterComp: Aprendizaje de retroalimentación consciente de la composición iterativa a partir de la galería de modelos para generación de texto a imagen.
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation
October 9, 2024
Autores: Xinchen Zhang, Ling Yang, Guohao Li, Yaqi Cai, Jiake Xie, Yong Tang, Yujiu Yang, Mengdi Wang, Bin Cui
cs.AI
Resumen
Los modelos avanzados de difusión como RPG, Difusión Estable 3 y FLUX han logrado avances notables en la generación de texto a imagen de manera compositiva. Sin embargo, estos métodos suelen exhibir fortalezas distintas para la generación compositiva, con algunos destacando en el manejo de la unión de atributos y otros en las relaciones espaciales. Esta disparidad resalta la necesidad de un enfoque que pueda aprovechar las fortalezas complementarias de varios modelos para mejorar de manera integral la capacidad de composición. Con este fin, presentamos IterComp, un marco novedoso que agrega preferencias de modelo con conciencia de composición de múltiples modelos y emplea un enfoque de aprendizaje de retroalimentación iterativa para mejorar la generación compositiva. Específicamente, creamos una galería de seis potentes modelos de difusión de código abierto y evaluamos sus tres métricas compositivas clave: unión de atributos, relaciones espaciales y relaciones no espaciales. Basándonos en estas métricas, desarrollamos un conjunto de datos de preferencias de modelo con conciencia de composición que incluye numerosos pares de imagen-rango para entrenar modelos de recompensa con conciencia de composición. Luego, proponemos un método de aprendizaje de retroalimentación iterativa para mejorar la composicionalidad de manera cíclica, permitiendo el automejoramiento progresivo tanto del modelo base de difusión como de los modelos de recompensa a lo largo de múltiples iteraciones. Una prueba teórica demuestra la efectividad y experimentos extensos muestran nuestra notable superioridad sobre métodos anteriores de vanguardia (por ejemplo, Omost y FLUX), especialmente en la composición de objetos de múltiples categorías y en la alineación semántica compleja. IterComp abre nuevas vías de investigación en el aprendizaje de retroalimentación de recompensa para modelos de difusión y generación compositiva. Código: https://github.com/YangLing0818/IterComp
English
Advanced diffusion models like RPG, Stable Diffusion 3 and FLUX have made
notable strides in compositional text-to-image generation. However, these
methods typically exhibit distinct strengths for compositional generation, with
some excelling in handling attribute binding and others in spatial
relationships. This disparity highlights the need for an approach that can
leverage the complementary strengths of various models to comprehensively
improve the composition capability. To this end, we introduce IterComp, a novel
framework that aggregates composition-aware model preferences from multiple
models and employs an iterative feedback learning approach to enhance
compositional generation. Specifically, we curate a gallery of six powerful
open-source diffusion models and evaluate their three key compositional
metrics: attribute binding, spatial relationships, and non-spatial
relationships. Based on these metrics, we develop a composition-aware model
preference dataset comprising numerous image-rank pairs to train
composition-aware reward models. Then, we propose an iterative feedback
learning method to enhance compositionality in a closed-loop manner, enabling
the progressive self-refinement of both the base diffusion model and reward
models over multiple iterations. Theoretical proof demonstrates the
effectiveness and extensive experiments show our significant superiority over
previous SOTA methods (e.g., Omost and FLUX), particularly in multi-category
object composition and complex semantic alignment. IterComp opens new research
avenues in reward feedback learning for diffusion models and compositional
generation. Code: https://github.com/YangLing0818/IterCompSummary
AI-Generated Summary