ChatPaper.aiChatPaper

T2I-CompBench: Ein umfassender Benchmark für die offene, kompositionelle Text-zu-Bild-Generierung

T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation

July 12, 2023
papers.authors: Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu
cs.AI

papers.abstract

Trotz der beeindruckenden Fähigkeit, hochwertige Bilder zu generieren, die aktuelle Text-zu-Bild-Modelle aufweisen, haben bestehende Ansätze oft Schwierigkeiten, Objekte mit unterschiedlichen Attributen und Beziehungen effektiv in eine komplexe und kohärente Szene zu integrieren. Wir schlagen T2I-CompBench vor, einen umfassenden Benchmark für die offene Welt der kompositionellen Text-zu-Bild-Generierung, der aus 6.000 kompositionellen Textprompts aus 3 Kategorien (Attributbindung, Objektbeziehungen und komplexe Kompositionen) und 6 Unterkategorien (Farbbindung, Formbindung, Texturbindung, räumliche Beziehungen, nicht-räumliche Beziehungen und komplexe Kompositionen) besteht. Wir schlagen außerdem mehrere Evaluationsmetriken vor, die speziell zur Bewertung der kompositionellen Text-zu-Bild-Generierung entwickelt wurden. Wir führen einen neuen Ansatz ein, Generative mOdel fine-tuning with Reward-driven Sample selection (GORS), um die kompositionellen Text-zu-Bild-Generierungsfähigkeiten vortrainierter Text-zu-Bild-Modelle zu verbessern. Umfangreiche Experimente und Bewertungen werden durchgeführt, um frühere Methoden auf T2I-CompBench zu benchmarken und die Wirksamkeit unserer vorgeschlagenen Evaluationsmetriken und des GORS-Ansatzes zu validieren. Die Projektseite ist unter https://karine-h.github.io/T2I-CompBench/ verfügbar.
English
Despite the stunning ability to generate high-quality images by recent text-to-image models, current approaches often struggle to effectively compose objects with different attributes and relationships into a complex and coherent scene. We propose T2I-CompBench, a comprehensive benchmark for open-world compositional text-to-image generation, consisting of 6,000 compositional text prompts from 3 categories (attribute binding, object relationships, and complex compositions) and 6 sub-categories (color binding, shape binding, texture binding, spatial relationships, non-spatial relationships, and complex compositions). We further propose several evaluation metrics specifically designed to evaluate compositional text-to-image generation. We introduce a new approach, Generative mOdel fine-tuning with Reward-driven Sample selection (GORS), to boost the compositional text-to-image generation abilities of pretrained text-to-image models. Extensive experiments and evaluations are conducted to benchmark previous methods on T2I-CompBench, and to validate the effectiveness of our proposed evaluation metrics and GORS approach. Project page is available at https://karine-h.github.io/T2I-CompBench/.
PDF71December 15, 2024