T2I-CompBench: Комплексный бенчмарк для генерации изображений на основе текста с открытым миром и композиционностью
T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation
July 12, 2023
Авторы: Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu
cs.AI
Аннотация
Несмотря на впечатляющую способность современных моделей генерации изображений по тексту создавать высококачественные изображения, существующие подходы часто сталкиваются с трудностями при эффективном объединении объектов с различными атрибутами и отношениями в сложную и согласованную сцену. Мы предлагаем T2I-CompBench — всеобъемлющий бенчмарк для генерации изображений по тексту в условиях открытого мира, состоящий из 6,000 композиционных текстовых запросов, разделенных на 3 категории (связывание атрибутов, отношения объектов и сложные композиции) и 6 подкатегорий (связывание цвета, связывание формы, связывание текстуры, пространственные отношения, не-пространственные отношения и сложные композиции). Мы также предлагаем несколько метрик оценки, специально разработанных для анализа композиционной генерации изображений по тексту. Мы представляем новый подход, Generative mOdel fine-tuning with Reward-driven Sample selection (GORS), для улучшения способностей предобученных моделей генерации изображений по тексту в области композиционной генерации. Проведены обширные эксперименты и оценки для сравнения предыдущих методов на T2I-CompBench, а также для подтверждения эффективности предложенных нами метрик оценки и подхода GORS. Страница проекта доступна по адресу https://karine-h.github.io/T2I-CompBench/.
English
Despite the stunning ability to generate high-quality images by recent
text-to-image models, current approaches often struggle to effectively compose
objects with different attributes and relationships into a complex and coherent
scene. We propose T2I-CompBench, a comprehensive benchmark for open-world
compositional text-to-image generation, consisting of 6,000 compositional text
prompts from 3 categories (attribute binding, object relationships, and complex
compositions) and 6 sub-categories (color binding, shape binding, texture
binding, spatial relationships, non-spatial relationships, and complex
compositions). We further propose several evaluation metrics specifically
designed to evaluate compositional text-to-image generation. We introduce a new
approach, Generative mOdel fine-tuning with Reward-driven Sample selection
(GORS), to boost the compositional text-to-image generation abilities of
pretrained text-to-image models. Extensive experiments and evaluations are
conducted to benchmark previous methods on T2I-CompBench, and to validate the
effectiveness of our proposed evaluation metrics and GORS approach. Project
page is available at https://karine-h.github.io/T2I-CompBench/.