ChatPaper.aiChatPaper

T2I-CompBench: Um Benchmark Abrangente para Geração de Imagens a partir de Texto com Composição em Mundo Aberto

T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation

July 12, 2023
Autores: Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu
cs.AI

Resumo

Apesar da impressionante capacidade de gerar imagens de alta qualidade demonstrada por modelos recentes de texto para imagem, as abordagens atuais frequentemente enfrentam dificuldades para compor efetivamente objetos com diferentes atributos e relações em uma cena complexa e coerente. Propomos o T2I-CompBench, um benchmark abrangente para geração composicional de texto para imagem em cenários de mundo aberto, composto por 6.000 prompts textuais composicionais de 3 categorias (vinculação de atributos, relações entre objetos e composições complexas) e 6 subcategorias (vinculação de cor, vinculação de forma, vinculação de textura, relações espaciais, relações não espaciais e composições complexas). Além disso, propomos várias métricas de avaliação especificamente projetadas para avaliar a geração composicional de texto para imagem. Introduzimos uma nova abordagem, chamada Ajuste Fino de Modelo Generativo com Seleção de Amostras Orientada por Recompensa (GORS), para aprimorar as habilidades de geração composicional de texto para imagem em modelos pré-treinados. Experimentos e avaliações extensivos foram conduzidos para comparar métodos anteriores no T2I-CompBench e validar a eficácia das nossas métricas de avaliação propostas e da abordagem GORS. A página do projeto está disponível em https://karine-h.github.io/T2I-CompBench/.
English
Despite the stunning ability to generate high-quality images by recent text-to-image models, current approaches often struggle to effectively compose objects with different attributes and relationships into a complex and coherent scene. We propose T2I-CompBench, a comprehensive benchmark for open-world compositional text-to-image generation, consisting of 6,000 compositional text prompts from 3 categories (attribute binding, object relationships, and complex compositions) and 6 sub-categories (color binding, shape binding, texture binding, spatial relationships, non-spatial relationships, and complex compositions). We further propose several evaluation metrics specifically designed to evaluate compositional text-to-image generation. We introduce a new approach, Generative mOdel fine-tuning with Reward-driven Sample selection (GORS), to boost the compositional text-to-image generation abilities of pretrained text-to-image models. Extensive experiments and evaluations are conducted to benchmark previous methods on T2I-CompBench, and to validate the effectiveness of our proposed evaluation metrics and GORS approach. Project page is available at https://karine-h.github.io/T2I-CompBench/.
PDF71December 15, 2024