IterComp: Iteratieve Samenstellingsbewuste Feedbackleren van Modelgalerij voor Tekst-naar-Afbeelding Generatie
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation
October 9, 2024
Auteurs: Xinchen Zhang, Ling Yang, Guohao Li, Yaqi Cai, Jiake Xie, Yong Tang, Yujiu Yang, Mengdi Wang, Bin Cui
cs.AI
Samenvatting
Geavanceerde diffusiemodellen zoals RPG, Stable Diffusion 3 en FLUX hebben opmerkelijke vooruitgang geboekt in de generatie van tekst-naar-afbeelding op compositorische wijze. Deze methoden vertonen echter doorgaans verschillende sterke punten voor compositorische generatie, waarbij sommige uitblinken in het omgaan met attribuutbinding en anderen in ruimtelijke relaties. Deze discrepantie benadrukt de noodzaak van een benadering die de complementaire sterke punten van verschillende modellen kan benutten om de samenstellingsmogelijkheden uitgebreid te verbeteren. Met dit doel introduceren we IterComp, een nieuw raamwerk dat samenstellingsbewuste modelvoorkeuren van meerdere modellen verzamelt en een iteratieve feedback-leerbenadering gebruikt om de compositorische generatie te verbeteren. Specifiek stellen we een galerij samen van zes krachtige open-source diffusiemodellen en evalueren we hun drie belangrijkste compositorische metingen: attribuutbinding, ruimtelijke relaties en niet-ruimtelijke relaties. Op basis van deze metingen ontwikkelen we een dataset van samenstellingsbewuste modelvoorkeuren bestaande uit talrijke afbeelding-rangorde paren om samenstellingsbewuste beloningsmodellen te trainen. Vervolgens stellen we een iteratieve feedback-leermethode voor om de samenstelling te verbeteren op een gesloten-lusmanier, waardoor de progressieve zelfverfijning van zowel het basis diffusiemodel als de beloningsmodellen over meerdere iteraties mogelijk wordt. Een theoretisch bewijs toont de effectiviteit aan en uitgebreide experimenten tonen onze aanzienlijke superioriteit ten opzichte van eerdere SOTA-methoden (bijv. Omost en FLUX), met name in de samenstelling van objecten in meerdere categorieën en complexe semantische uitlijning. IterComp opent nieuwe onderzoekspaden in beloningsfeedbackleren voor diffusiemodellen en compositorische generatie. Code: https://github.com/YangLing0818/IterComp
English
Advanced diffusion models like RPG, Stable Diffusion 3 and FLUX have made
notable strides in compositional text-to-image generation. However, these
methods typically exhibit distinct strengths for compositional generation, with
some excelling in handling attribute binding and others in spatial
relationships. This disparity highlights the need for an approach that can
leverage the complementary strengths of various models to comprehensively
improve the composition capability. To this end, we introduce IterComp, a novel
framework that aggregates composition-aware model preferences from multiple
models and employs an iterative feedback learning approach to enhance
compositional generation. Specifically, we curate a gallery of six powerful
open-source diffusion models and evaluate their three key compositional
metrics: attribute binding, spatial relationships, and non-spatial
relationships. Based on these metrics, we develop a composition-aware model
preference dataset comprising numerous image-rank pairs to train
composition-aware reward models. Then, we propose an iterative feedback
learning method to enhance compositionality in a closed-loop manner, enabling
the progressive self-refinement of both the base diffusion model and reward
models over multiple iterations. Theoretical proof demonstrates the
effectiveness and extensive experiments show our significant superiority over
previous SOTA methods (e.g., Omost and FLUX), particularly in multi-category
object composition and complex semantic alignment. IterComp opens new research
avenues in reward feedback learning for diffusion models and compositional
generation. Code: https://github.com/YangLing0818/IterCompSummary
AI-Generated Summary