IterComp: Iterative Kompositionsorientiertes Feedback-Lernen aus Modellgalerien für die Generierung von Text-zu-Bild.
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation
October 9, 2024
Autoren: Xinchen Zhang, Ling Yang, Guohao Li, Yaqi Cai, Jiake Xie, Yong Tang, Yujiu Yang, Mengdi Wang, Bin Cui
cs.AI
Zusammenfassung
Fortgeschrittene Diffusionsmodelle wie RPG, Stable Diffusion 3 und FLUX haben bedeutende Fortschritte bei der kompositorischen Text-zu-Bild-Generierung gemacht. Diese Methoden zeigen jedoch typischerweise unterschiedliche Stärken bei der kompositorischen Generierung, wobei einige sich in der Behandlung von Attributbindung hervortun und andere in räumlichen Beziehungen. Diese Diskrepanz unterstreicht die Notwendigkeit eines Ansatzes, der die ergänzenden Stärken verschiedener Modelle nutzen kann, um die Kompositionsleistung umfassend zu verbessern. Zu diesem Zweck stellen wir IterComp vor, ein neuartiges Framework, das kompositionsbezogene Modellpräferenzen aus mehreren Modellen aggregiert und einen iterativen Feedback-Lernansatz zur Verbesserung der kompositorischen Generierung verwendet. Konkret kuratieren wir eine Galerie von sechs leistungsstarken Open-Source-Diffusionsmodellen und bewerten ihre drei wichtigsten kompositorischen Metriken: Attributbindung, räumliche Beziehungen und nicht-räumliche Beziehungen. Basierend auf diesen Metriken entwickeln wir einen kompositionsbezogenen Modellpräferenzdatensatz, der zahlreiche Bild-Rang-Paare umfasst, um kompositionsbezogene Belohnungsmodelle zu trainieren. Anschließend schlagen wir eine iterative Feedback-Lernmethode vor, um die Kompositionalität in einer geschlossenen Schleife zu verbessern, die die progressive Selbstverfeinerung sowohl des Basismodells als auch der Belohnungsmodelle über mehrere Iterationen ermöglicht. Theoretischer Nachweis zeigt die Wirksamkeit, und umfangreiche Experimente zeigen unsere signifikante Überlegenheit gegenüber früheren SOTA-Methoden (z. B. Omost und FLUX), insbesondere bei der Mehrkategorie-Objektkomposition und der komplexen semantischen Ausrichtung. IterComp eröffnet neue Forschungswege im Bereich des Belohnungs-Feedback-Lernens für Diffusionsmodelle und kompositorische Generierung. Code: https://github.com/YangLing0818/IterComp
English
Advanced diffusion models like RPG, Stable Diffusion 3 and FLUX have made
notable strides in compositional text-to-image generation. However, these
methods typically exhibit distinct strengths for compositional generation, with
some excelling in handling attribute binding and others in spatial
relationships. This disparity highlights the need for an approach that can
leverage the complementary strengths of various models to comprehensively
improve the composition capability. To this end, we introduce IterComp, a novel
framework that aggregates composition-aware model preferences from multiple
models and employs an iterative feedback learning approach to enhance
compositional generation. Specifically, we curate a gallery of six powerful
open-source diffusion models and evaluate their three key compositional
metrics: attribute binding, spatial relationships, and non-spatial
relationships. Based on these metrics, we develop a composition-aware model
preference dataset comprising numerous image-rank pairs to train
composition-aware reward models. Then, we propose an iterative feedback
learning method to enhance compositionality in a closed-loop manner, enabling
the progressive self-refinement of both the base diffusion model and reward
models over multiple iterations. Theoretical proof demonstrates the
effectiveness and extensive experiments show our significant superiority over
previous SOTA methods (e.g., Omost and FLUX), particularly in multi-category
object composition and complex semantic alignment. IterComp opens new research
avenues in reward feedback learning for diffusion models and compositional
generation. Code: https://github.com/YangLing0818/IterCompSummary
AI-Generated Summary