ChatPaper.aiChatPaper

T2I-CompBench: オープンワールド構成可能なテキストから画像生成のための包括的ベンチマーク

T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation

July 12, 2023
著者: Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu
cs.AI

要旨

近年のテキストから画像を生成するモデルは、高品質な画像を生成する驚異的な能力を持っているにもかかわらず、異なる属性や関係を持つオブジェクトを複雑で一貫性のあるシーンに効果的に構成することに苦戦していることが多い。本論文では、オープンワールドの合成的テキストから画像生成のための包括的なベンチマークであるT2I-CompBenchを提案する。これは、3つのカテゴリ(属性の結合、オブジェクトの関係、複雑な構成)と6つのサブカテゴリ(色の結合、形状の結合、テクスチャの結合、空間的関係、非空間的関係、複雑な構成)からなる6,000の合成的テキストプロンプトで構成されている。さらに、合成的テキストから画像生成を評価するために特別に設計されたいくつかの評価指標を提案する。また、事前学習済みのテキストから画像生成モデルの合成的テキストから画像生成能力を向上させるために、報酬駆動型サンプル選択による生成モデルのファインチューニング(GORS)という新しいアプローチを導入する。T2I-CompBench上で従来の手法をベンチマークし、提案した評価指標とGORSアプローチの有効性を検証するために、広範な実験と評価を行った。プロジェクトページはhttps://karine-h.github.io/T2I-CompBench/で公開されている。
English
Despite the stunning ability to generate high-quality images by recent text-to-image models, current approaches often struggle to effectively compose objects with different attributes and relationships into a complex and coherent scene. We propose T2I-CompBench, a comprehensive benchmark for open-world compositional text-to-image generation, consisting of 6,000 compositional text prompts from 3 categories (attribute binding, object relationships, and complex compositions) and 6 sub-categories (color binding, shape binding, texture binding, spatial relationships, non-spatial relationships, and complex compositions). We further propose several evaluation metrics specifically designed to evaluate compositional text-to-image generation. We introduce a new approach, Generative mOdel fine-tuning with Reward-driven Sample selection (GORS), to boost the compositional text-to-image generation abilities of pretrained text-to-image models. Extensive experiments and evaluations are conducted to benchmark previous methods on T2I-CompBench, and to validate the effectiveness of our proposed evaluation metrics and GORS approach. Project page is available at https://karine-h.github.io/T2I-CompBench/.
PDF70December 15, 2024