T2I-CompBench: Um Benchmark Abrangente para Geração de Imagens a partir de Texto com Composição em Mundo Aberto
T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation
July 12, 2023
Autores: Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu
cs.AI
Resumo
Apesar da impressionante capacidade de gerar imagens de alta qualidade demonstrada por modelos recentes de texto para imagem, as abordagens atuais frequentemente enfrentam dificuldades para compor efetivamente objetos com diferentes atributos e relações em uma cena complexa e coerente. Propomos o T2I-CompBench, um benchmark abrangente para geração composicional de texto para imagem em cenários de mundo aberto, composto por 6.000 prompts textuais composicionais de 3 categorias (vinculação de atributos, relações entre objetos e composições complexas) e 6 subcategorias (vinculação de cor, vinculação de forma, vinculação de textura, relações espaciais, relações não espaciais e composições complexas). Além disso, propomos várias métricas de avaliação especificamente projetadas para avaliar a geração composicional de texto para imagem. Introduzimos uma nova abordagem, chamada Ajuste Fino de Modelo Generativo com Seleção de Amostras Orientada por Recompensa (GORS), para aprimorar as habilidades de geração composicional de texto para imagem em modelos pré-treinados. Experimentos e avaliações extensivos foram conduzidos para comparar métodos anteriores no T2I-CompBench e validar a eficácia das nossas métricas de avaliação propostas e da abordagem GORS. A página do projeto está disponível em https://karine-h.github.io/T2I-CompBench/.
English
Despite the stunning ability to generate high-quality images by recent
text-to-image models, current approaches often struggle to effectively compose
objects with different attributes and relationships into a complex and coherent
scene. We propose T2I-CompBench, a comprehensive benchmark for open-world
compositional text-to-image generation, consisting of 6,000 compositional text
prompts from 3 categories (attribute binding, object relationships, and complex
compositions) and 6 sub-categories (color binding, shape binding, texture
binding, spatial relationships, non-spatial relationships, and complex
compositions). We further propose several evaluation metrics specifically
designed to evaluate compositional text-to-image generation. We introduce a new
approach, Generative mOdel fine-tuning with Reward-driven Sample selection
(GORS), to boost the compositional text-to-image generation abilities of
pretrained text-to-image models. Extensive experiments and evaluations are
conducted to benchmark previous methods on T2I-CompBench, and to validate the
effectiveness of our proposed evaluation metrics and GORS approach. Project
page is available at https://karine-h.github.io/T2I-CompBench/.