IterComp: Apprendimento dei feedback consapevole della composizione iterativa dal Model Gallery per la generazione di testo in immagini

Abstract

Modelli avanzati di diffusione come RPG, Stable Diffusion 3 e FLUX hanno compiuto progressi significativi nella generazione testo-immagine composita. Tuttavia, questi metodi mostrano tipicamente punti di forza distinti per la generazione composita, con alcuni che eccellono nel gestire il legame degli attributi e altri nelle relazioni spaziali. Questa disparità sottolinea la necessità di un approccio che possa sfruttare i punti di forza complementari di vari modelli per migliorare in modo completo la capacità compositiva. A questo scopo, presentiamo IterComp, un nuovo framework che aggrega le preferenze dei modelli consapevoli della composizione da modelli multipli e utilizza un approccio di apprendimento a feedback iterativo per migliorare la generazione compositiva. In particolare, curiamo una galleria di sei potenti modelli di diffusione open-source e valutiamo i loro tre principali metriche compositive: legame degli attributi, relazioni spaziali e relazioni non spaziali. Sulla base di queste metriche, sviluppiamo un dataset di preferenze di modelli consapevoli della composizione che comprende numerose coppie di immagini-rango per addestrare modelli di reward consapevoli della composizione. Successivamente, proponiamo un metodo di apprendimento a feedback iterativo per migliorare la composizione in modo circolare, consentendo il progressivo auto-raffinamento sia del modello di diffusione di base che dei modelli di reward attraverso molteplici iterazioni. Una dimostrazione teorica ne attesta l'efficacia e ampi esperimenti mostrano la nostra significativa superiorità rispetto ai precedenti metodi SOTA (ad esempio, Omost e FLUX), in particolare nella composizione di oggetti multi-categoria e nell'allineamento semantico complesso. IterComp apre nuove vie di ricerca nell'apprendimento a feedback di reward per i modelli di diffusione e nella generazione compositiva. Codice: https://github.com/YangLing0818/IterComp

English

Advanced diffusion models like RPG, Stable Diffusion 3 and FLUX have made notable strides in compositional text-to-image generation. However, these methods typically exhibit distinct strengths for compositional generation, with some excelling in handling attribute binding and others in spatial relationships. This disparity highlights the need for an approach that can leverage the complementary strengths of various models to comprehensively improve the composition capability. To this end, we introduce IterComp, a novel framework that aggregates composition-aware model preferences from multiple models and employs an iterative feedback learning approach to enhance compositional generation. Specifically, we curate a gallery of six powerful open-source diffusion models and evaluate their three key compositional metrics: attribute binding, spatial relationships, and non-spatial relationships. Based on these metrics, we develop a composition-aware model preference dataset comprising numerous image-rank pairs to train composition-aware reward models. Then, we propose an iterative feedback learning method to enhance compositionality in a closed-loop manner, enabling the progressive self-refinement of both the base diffusion model and reward models over multiple iterations. Theoretical proof demonstrates the effectiveness and extensive experiments show our significant superiority over previous SOTA methods (e.g., Omost and FLUX), particularly in multi-category object composition and complex semantic alignment. IterComp opens new research avenues in reward feedback learning for diffusion models and compositional generation. Code: https://github.com/YangLing0818/IterComp

IterComp: Apprendimento dei feedback consapevole della composizione iterativa dal Model Gallery per la generazione di testo in immagini

IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation

Abstract

Support