¿Acaso me parezco a un `gato.n.01` para ti? Un Benchmark de Generación de Imágenes Taxonómicas
Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark
March 13, 2025
Autores: Viktor Moskvoretskii, Alina Lobanova, Ekaterina Neminova, Chris Biemann, Alexander Panchenko, Irina Nikishina
cs.AI
Resumen
Este artículo explora la viabilidad de utilizar modelos de texto a imagen en una configuración de cero disparos para generar imágenes de conceptos taxonómicos. Si bien los métodos basados en texto para el enriquecimiento de taxonomías están bien establecidos, el potencial de la dimensión visual sigue sin explorarse. Para abordar esto, proponemos un benchmark integral para la Generación de Imágenes Taxonómicas que evalúa la capacidad de los modelos para comprender conceptos taxonómicos y generar imágenes relevantes y de alta calidad. El benchmark incluye conceptos de sentido común y muestreados aleatoriamente de WordNet, junto con predicciones generadas por modelos de lenguaje grandes (LLM). Los 12 modelos son evaluados utilizando 9 métricas novedosas relacionadas con taxonomías de texto a imagen y retroalimentación humana. Además, somos pioneros en el uso de evaluación por pares con retroalimentación de GPT-4 para la generación de imágenes. Los resultados experimentales muestran que la clasificación de los modelos difiere significativamente de las tareas estándar de texto a imagen (T2I). Playground-v2 y FLUX superan consistentemente en todas las métricas y subconjuntos, mientras que el enfoque basado en recuperación tiene un desempeño deficiente. Estos hallazgos resaltan el potencial para automatizar la curación de recursos de datos estructurados.
English
This paper explores the feasibility of using text-to-image models in a
zero-shot setup to generate images for taxonomy concepts. While text-based
methods for taxonomy enrichment are well-established, the potential of the
visual dimension remains unexplored. To address this, we propose a
comprehensive benchmark for Taxonomy Image Generation that assesses models'
abilities to understand taxonomy concepts and generate relevant, high-quality
images. The benchmark includes common-sense and randomly sampled WordNet
concepts, alongside the LLM generated predictions. The 12 models are evaluated
using 9 novel taxonomy-related text-to-image metrics and human feedback.
Moreover, we pioneer the use of pairwise evaluation with GPT-4 feedback for
image generation. Experimental results show that the ranking of models differs
significantly from standard T2I tasks. Playground-v2 and FLUX consistently
outperform across metrics and subsets and the retrieval-based approach performs
poorly. These findings highlight the potential for automating the curation of
structured data resources.Summary
AI-Generated Summary