IterComp: Apprendimento dei feedback consapevole della composizione iterativa dal Model Gallery per la generazione di testo in immagini
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation
October 9, 2024
Autori: Xinchen Zhang, Ling Yang, Guohao Li, Yaqi Cai, Jiake Xie, Yong Tang, Yujiu Yang, Mengdi Wang, Bin Cui
cs.AI
Abstract
Modelli avanzati di diffusione come RPG, Stable Diffusion 3 e FLUX hanno compiuto progressi significativi nella generazione testo-immagine composita. Tuttavia, questi metodi mostrano tipicamente punti di forza distinti per la generazione composita, con alcuni che eccellono nel gestire il legame degli attributi e altri nelle relazioni spaziali. Questa disparità sottolinea la necessità di un approccio che possa sfruttare i punti di forza complementari di vari modelli per migliorare in modo completo la capacità compositiva. A questo scopo, presentiamo IterComp, un nuovo framework che aggrega le preferenze dei modelli consapevoli della composizione da modelli multipli e utilizza un approccio di apprendimento a feedback iterativo per migliorare la generazione compositiva. In particolare, curiamo una galleria di sei potenti modelli di diffusione open-source e valutiamo i loro tre principali metriche compositive: legame degli attributi, relazioni spaziali e relazioni non spaziali. Sulla base di queste metriche, sviluppiamo un dataset di preferenze di modelli consapevoli della composizione che comprende numerose coppie di immagini-rango per addestrare modelli di reward consapevoli della composizione. Successivamente, proponiamo un metodo di apprendimento a feedback iterativo per migliorare la composizione in modo circolare, consentendo il progressivo auto-raffinamento sia del modello di diffusione di base che dei modelli di reward attraverso molteplici iterazioni. Una dimostrazione teorica ne attesta l'efficacia e ampi esperimenti mostrano la nostra significativa superiorità rispetto ai precedenti metodi SOTA (ad esempio, Omost e FLUX), in particolare nella composizione di oggetti multi-categoria e nell'allineamento semantico complesso. IterComp apre nuove vie di ricerca nell'apprendimento a feedback di reward per i modelli di diffusione e nella generazione compositiva. Codice: https://github.com/YangLing0818/IterComp
English
Advanced diffusion models like RPG, Stable Diffusion 3 and FLUX have made
notable strides in compositional text-to-image generation. However, these
methods typically exhibit distinct strengths for compositional generation, with
some excelling in handling attribute binding and others in spatial
relationships. This disparity highlights the need for an approach that can
leverage the complementary strengths of various models to comprehensively
improve the composition capability. To this end, we introduce IterComp, a novel
framework that aggregates composition-aware model preferences from multiple
models and employs an iterative feedback learning approach to enhance
compositional generation. Specifically, we curate a gallery of six powerful
open-source diffusion models and evaluate their three key compositional
metrics: attribute binding, spatial relationships, and non-spatial
relationships. Based on these metrics, we develop a composition-aware model
preference dataset comprising numerous image-rank pairs to train
composition-aware reward models. Then, we propose an iterative feedback
learning method to enhance compositionality in a closed-loop manner, enabling
the progressive self-refinement of both the base diffusion model and reward
models over multiple iterations. Theoretical proof demonstrates the
effectiveness and extensive experiments show our significant superiority over
previous SOTA methods (e.g., Omost and FLUX), particularly in multi-category
object composition and complex semantic alignment. IterComp opens new research
avenues in reward feedback learning for diffusion models and compositional
generation. Code: https://github.com/YangLing0818/IterComp