T2I-CompBench: Een Uitgebreide Benchmark voor Open-wereld Compositionele Tekst-naar-beeld Generatie

Samenvatting

Ondanks de indrukwekkende mogelijkheden van recente tekst-naar-beeldmodellen om hoogwaardige afbeeldingen te genereren, hebben huidige benaderingen vaak moeite om objecten met verschillende attributen en relaties effectief samen te voegen tot een complexe en samenhangende scène. Wij stellen T2I-CompBench voor, een uitgebreide benchmark voor open-wereld compositieve tekst-naar-beeldgeneratie, bestaande uit 6.000 compositieve tekstprompts uit 3 categorieën (attribuutbinding, objectrelaties en complexe composities) en 6 subcategorieën (kleurbinding, vormbinding, textuurbinding, ruimtelijke relaties, niet-ruimtelijke relaties en complexe composities). We introduceren verder verschillende evaluatiemetrics die specifiek zijn ontworpen om compositieve tekst-naar-beeldgeneratie te evalueren. We introduceren een nieuwe benadering, Generative mOdel fine-tuning with Reward-driven Sample selection (GORS), om de compositieve tekst-naar-beeldgeneratiecapaciteiten van vooraf getrainde tekst-naar-beeldmodellen te verbeteren. Uitgebreide experimenten en evaluaties worden uitgevoerd om eerdere methoden op T2I-CompBench te benchmarken en om de effectiviteit van onze voorgestelde evaluatiemetrics en GORS-benadering te valideren. De projectpagina is beschikbaar op https://karine-h.github.io/T2I-CompBench/.

English

Despite the stunning ability to generate high-quality images by recent text-to-image models, current approaches often struggle to effectively compose objects with different attributes and relationships into a complex and coherent scene. We propose T2I-CompBench, a comprehensive benchmark for open-world compositional text-to-image generation, consisting of 6,000 compositional text prompts from 3 categories (attribute binding, object relationships, and complex compositions) and 6 sub-categories (color binding, shape binding, texture binding, spatial relationships, non-spatial relationships, and complex compositions). We further propose several evaluation metrics specifically designed to evaluate compositional text-to-image generation. We introduce a new approach, Generative mOdel fine-tuning with Reward-driven Sample selection (GORS), to boost the compositional text-to-image generation abilities of pretrained text-to-image models. Extensive experiments and evaluations are conducted to benchmark previous methods on T2I-CompBench, and to validate the effectiveness of our proposed evaluation metrics and GORS approach. Project page is available at https://karine-h.github.io/T2I-CompBench/.

T2I-CompBench: Een Uitgebreide Benchmark voor Open-wereld Compositionele Tekst-naar-beeld Generatie

T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation

Samenvatting

Support