T2I-CompBench: Un Benchmark Integral para la Generación de Imágenes a partir de Texto de Composición en Mundo Abierto
T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation
July 12, 2023
Autores: Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu
cs.AI
Resumen
A pesar de la impresionante capacidad de generar imágenes de alta calidad de los modelos recientes de texto a imagen, los enfoques actuales a menudo tienen dificultades para componer de manera efectiva objetos con diferentes atributos y relaciones en una escena compleja y coherente. Proponemos T2I-CompBench, un punto de referencia integral para la generación de imágenes a partir de texto de composición en un mundo abierto, que consta de 6,000 indicaciones de texto compositivo de 3 categorías (vinculación de atributos, relaciones de objetos y composiciones complejas) y 6 subcategorías (vinculación de color, vinculación de forma, vinculación de textura, relaciones espaciales, relaciones no espaciales y composiciones complejas). Además, proponemos varias métricas de evaluación diseñadas específicamente para evaluar la generación de imágenes a partir de texto compositivo. Introducimos un nuevo enfoque, Ajuste fino de modelos generativos con selección de muestras impulsada por recompensas (GORS), para potenciar las habilidades de generación de imágenes a partir de texto compositivo de modelos preentrenados de texto a imagen. Se llevan a cabo extensos experimentos y evaluaciones para comparar métodos anteriores en T2I-CompBench y validar la efectividad de nuestras métricas de evaluación propuestas y el enfoque GORS. La página del proyecto está disponible en https://karine-h.github.io/T2I-CompBench/.
English
Despite the stunning ability to generate high-quality images by recent
text-to-image models, current approaches often struggle to effectively compose
objects with different attributes and relationships into a complex and coherent
scene. We propose T2I-CompBench, a comprehensive benchmark for open-world
compositional text-to-image generation, consisting of 6,000 compositional text
prompts from 3 categories (attribute binding, object relationships, and complex
compositions) and 6 sub-categories (color binding, shape binding, texture
binding, spatial relationships, non-spatial relationships, and complex
compositions). We further propose several evaluation metrics specifically
designed to evaluate compositional text-to-image generation. We introduce a new
approach, Generative mOdel fine-tuning with Reward-driven Sample selection
(GORS), to boost the compositional text-to-image generation abilities of
pretrained text-to-image models. Extensive experiments and evaluations are
conducted to benchmark previous methods on T2I-CompBench, and to validate the
effectiveness of our proposed evaluation metrics and GORS approach. Project
page is available at https://karine-h.github.io/T2I-CompBench/.