ChatPaper.aiChatPaper

Ti sembro un `gatto.n.01`? Un Benchmark per la Generazione di Immagini Tassonomiche

Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark

March 13, 2025
Autori: Viktor Moskvoretskii, Alina Lobanova, Ekaterina Neminova, Chris Biemann, Alexander Panchenko, Irina Nikishina
cs.AI

Abstract

Questo articolo esplora la fattibilità dell'utilizzo di modelli text-to-image in un contesto zero-shot per generare immagini relative a concetti tassonomici. Mentre i metodi basati sul testo per l'arricchimento della tassonomia sono ben consolidati, il potenziale della dimensione visiva rimane inesplorato. Per affrontare questa lacuna, proponiamo un benchmark completo per la Generazione di Immagini Tassonomiche che valuta la capacità dei modelli di comprendere i concetti tassonomici e generare immagini pertinenti e di alta qualità. Il benchmark include concetti di senso comune e campionati casualmente da WordNet, insieme alle previsioni generate da modelli linguistici di grandi dimensioni (LLM). I 12 modelli vengono valutati utilizzando 9 nuove metriche text-to-image relative alla tassonomia e feedback umano. Inoltre, siamo i primi a utilizzare una valutazione a coppie con feedback GPT-4 per la generazione di immagini. I risultati sperimentali mostrano che la classifica dei modelli differisce significativamente rispetto ai compiti T2I standard. Playground-v2 e FLUX si distinguono costantemente in tutte le metriche e sottoinsiemi, mentre l'approccio basato sul recupero delle informazioni si rivela poco efficace. Questi risultati evidenziano il potenziale per l'automazione della cura di risorse di dati strutturati.
English
This paper explores the feasibility of using text-to-image models in a zero-shot setup to generate images for taxonomy concepts. While text-based methods for taxonomy enrichment are well-established, the potential of the visual dimension remains unexplored. To address this, we propose a comprehensive benchmark for Taxonomy Image Generation that assesses models' abilities to understand taxonomy concepts and generate relevant, high-quality images. The benchmark includes common-sense and randomly sampled WordNet concepts, alongside the LLM generated predictions. The 12 models are evaluated using 9 novel taxonomy-related text-to-image metrics and human feedback. Moreover, we pioneer the use of pairwise evaluation with GPT-4 feedback for image generation. Experimental results show that the ranking of models differs significantly from standard T2I tasks. Playground-v2 and FLUX consistently outperform across metrics and subsets and the retrieval-based approach performs poorly. These findings highlight the potential for automating the curation of structured data resources.
PDF112March 14, 2025