T2I-CompBench: Ein umfassender Benchmark für die offene, kompositionelle Text-zu-Bild-Generierung
T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation
July 12, 2023
papers.authors: Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu
cs.AI
papers.abstract
Trotz der beeindruckenden Fähigkeit, hochwertige Bilder zu generieren, die aktuelle Text-zu-Bild-Modelle aufweisen, haben bestehende Ansätze oft Schwierigkeiten, Objekte mit unterschiedlichen Attributen und Beziehungen effektiv in eine komplexe und kohärente Szene zu integrieren. Wir schlagen T2I-CompBench vor, einen umfassenden Benchmark für die offene Welt der kompositionellen Text-zu-Bild-Generierung, der aus 6.000 kompositionellen Textprompts aus 3 Kategorien (Attributbindung, Objektbeziehungen und komplexe Kompositionen) und 6 Unterkategorien (Farbbindung, Formbindung, Texturbindung, räumliche Beziehungen, nicht-räumliche Beziehungen und komplexe Kompositionen) besteht. Wir schlagen außerdem mehrere Evaluationsmetriken vor, die speziell zur Bewertung der kompositionellen Text-zu-Bild-Generierung entwickelt wurden. Wir führen einen neuen Ansatz ein, Generative mOdel fine-tuning with Reward-driven Sample selection (GORS), um die kompositionellen Text-zu-Bild-Generierungsfähigkeiten vortrainierter Text-zu-Bild-Modelle zu verbessern. Umfangreiche Experimente und Bewertungen werden durchgeführt, um frühere Methoden auf T2I-CompBench zu benchmarken und die Wirksamkeit unserer vorgeschlagenen Evaluationsmetriken und des GORS-Ansatzes zu validieren. Die Projektseite ist unter https://karine-h.github.io/T2I-CompBench/ verfügbar.
English
Despite the stunning ability to generate high-quality images by recent
text-to-image models, current approaches often struggle to effectively compose
objects with different attributes and relationships into a complex and coherent
scene. We propose T2I-CompBench, a comprehensive benchmark for open-world
compositional text-to-image generation, consisting of 6,000 compositional text
prompts from 3 categories (attribute binding, object relationships, and complex
compositions) and 6 sub-categories (color binding, shape binding, texture
binding, spatial relationships, non-spatial relationships, and complex
compositions). We further propose several evaluation metrics specifically
designed to evaluate compositional text-to-image generation. We introduce a new
approach, Generative mOdel fine-tuning with Reward-driven Sample selection
(GORS), to boost the compositional text-to-image generation abilities of
pretrained text-to-image models. Extensive experiments and evaluations are
conducted to benchmark previous methods on T2I-CompBench, and to validate the
effectiveness of our proposed evaluation metrics and GORS approach. Project
page is available at https://karine-h.github.io/T2I-CompBench/.