ChatPaper.aiChatPaper

Eu pareço um `gato.n.01` para você? Um Benchmark de Geração de Imagens Taxonômicas

Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark

March 13, 2025
Autores: Viktor Moskvoretskii, Alina Lobanova, Ekaterina Neminova, Chris Biemann, Alexander Panchenko, Irina Nikishina
cs.AI

Resumo

Este artigo explora a viabilidade de usar modelos de texto para imagem em uma configuração zero-shot para gerar imagens de conceitos taxonômicos. Embora os métodos baseados em texto para enriquecimento de taxonomias sejam bem estabelecidos, o potencial da dimensão visual permanece inexplorado. Para abordar isso, propomos um benchmark abrangente para Geração de Imagens Taxonômicas que avalia a capacidade dos modelos de compreender conceitos taxonômicos e gerar imagens relevantes e de alta qualidade. O benchmark inclui conceitos de senso comum e amostrados aleatoriamente do WordNet, juntamente com previsões geradas por LLM. Os 12 modelos são avaliados usando 9 novas métricas de texto para imagem relacionadas à taxonomia e feedback humano. Além disso, pioneiramente, utilizamos avaliação pareada com feedback do GPT-4 para geração de imagens. Os resultados experimentais mostram que a classificação dos modelos difere significativamente das tarefas padrão de T2I. Playground-v2 e FLUX superam consistentemente em todas as métricas e subconjuntos, enquanto a abordagem baseada em recuperação tem um desempenho ruim. Essas descobertas destacam o potencial para automatizar a curadoria de recursos de dados estruturados.
English
This paper explores the feasibility of using text-to-image models in a zero-shot setup to generate images for taxonomy concepts. While text-based methods for taxonomy enrichment are well-established, the potential of the visual dimension remains unexplored. To address this, we propose a comprehensive benchmark for Taxonomy Image Generation that assesses models' abilities to understand taxonomy concepts and generate relevant, high-quality images. The benchmark includes common-sense and randomly sampled WordNet concepts, alongside the LLM generated predictions. The 12 models are evaluated using 9 novel taxonomy-related text-to-image metrics and human feedback. Moreover, we pioneer the use of pairwise evaluation with GPT-4 feedback for image generation. Experimental results show that the ranking of models differs significantly from standard T2I tasks. Playground-v2 and FLUX consistently outperform across metrics and subsets and the retrieval-based approach performs poorly. These findings highlight the potential for automating the curation of structured data resources.

Summary

AI-Generated Summary

PDF112March 14, 2025