IterComp : Apprentissage de la rétroaction conscient de la composition itérative à partir de la galerie de modèles pour la génération de texte en image
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation
October 9, 2024
Auteurs: Xinchen Zhang, Ling Yang, Guohao Li, Yaqi Cai, Jiake Xie, Yong Tang, Yujiu Yang, Mengdi Wang, Bin Cui
cs.AI
Résumé
Des modèles de diffusion avancés tels que RPG, Stable Diffusion 3 et FLUX ont réalisé des avancées notables dans la génération de texte vers image compositionnelle. Cependant, ces méthodes présentent généralement des forces distinctes pour la génération compositionnelle, certaines excellant dans la gestion de la liaison d'attributs et d'autres dans les relations spatiales. Cette disparité souligne la nécessité d'une approche capable de tirer parti des forces complémentaires de différents modèles pour améliorer de manière exhaustive la capacité de composition. À cette fin, nous introduisons IterComp, un nouveau cadre qui agrège les préférences des modèles conscients de la composition de plusieurs modèles et utilise une approche d'apprentissage par rétroaction itérative pour améliorer la génération compositionnelle. Plus précisément, nous constituons une galerie de six puissants modèles de diffusion open-source et évaluons leurs trois principales mesures compositionnelles : la liaison d'attributs, les relations spatiales et les relations non spatiales. Sur la base de ces mesures, nous développons un ensemble de données de préférences de modèles conscients de la composition comprenant de nombreux paires image-classement pour entraîner des modèles de récompense conscients de la composition. Ensuite, nous proposons une méthode d'apprentissage par rétroaction itérative pour améliorer la composition de manière bouclée, permettant l'auto-affinement progressif à la fois du modèle de diffusion de base et des modèles de récompense sur plusieurs itérations. Une preuve théorique démontre l'efficacité et des expériences approfondies montrent notre nette supériorité par rapport aux méthodes SOTA précédentes (par exemple, Omost et FLUX), en particulier dans la composition d'objets multi-catégories et l'alignement sémantique complexe. IterComp ouvre de nouvelles voies de recherche dans l'apprentissage par rétroaction de récompense pour les modèles de diffusion et la génération compositionnelle. Code : https://github.com/YangLing0818/IterComp
English
Advanced diffusion models like RPG, Stable Diffusion 3 and FLUX have made
notable strides in compositional text-to-image generation. However, these
methods typically exhibit distinct strengths for compositional generation, with
some excelling in handling attribute binding and others in spatial
relationships. This disparity highlights the need for an approach that can
leverage the complementary strengths of various models to comprehensively
improve the composition capability. To this end, we introduce IterComp, a novel
framework that aggregates composition-aware model preferences from multiple
models and employs an iterative feedback learning approach to enhance
compositional generation. Specifically, we curate a gallery of six powerful
open-source diffusion models and evaluate their three key compositional
metrics: attribute binding, spatial relationships, and non-spatial
relationships. Based on these metrics, we develop a composition-aware model
preference dataset comprising numerous image-rank pairs to train
composition-aware reward models. Then, we propose an iterative feedback
learning method to enhance compositionality in a closed-loop manner, enabling
the progressive self-refinement of both the base diffusion model and reward
models over multiple iterations. Theoretical proof demonstrates the
effectiveness and extensive experiments show our significant superiority over
previous SOTA methods (e.g., Omost and FLUX), particularly in multi-category
object composition and complex semantic alignment. IterComp opens new research
avenues in reward feedback learning for diffusion models and compositional
generation. Code: https://github.com/YangLing0818/IterCompSummary
AI-Generated Summary