Lijk ik op een `kat.n.01` voor jou? Een Taxonomie Benchmark voor Beeldgeneratie
Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark
March 13, 2025
Auteurs: Viktor Moskvoretskii, Alina Lobanova, Ekaterina Neminova, Chris Biemann, Alexander Panchenko, Irina Nikishina
cs.AI
Samenvatting
Dit artikel onderzoekt de haalbaarheid van het gebruik van tekst-naar-beeldmodellen in een zero-shot opzet om afbeeldingen te genereren voor taxonomische concepten. Hoewel tekstgebaseerde methoden voor taxonomieverrijking goed ingeburgerd zijn, blijft het potentieel van de visuele dimensie onontgonnen. Om dit aan te pakken, stellen we een uitgebreide benchmark voor voor Taxonomie Afbeelding Generatie die het vermogen van modellen beoordeelt om taxonomische concepten te begrijpen en relevante, hoogwaardige afbeeldingen te genereren. De benchmark omvat zowel alledaagse als willekeurig geselecteerde WordNet-concepten, naast de door LLM gegenereerde voorspellingen. De 12 modellen worden geëvalueerd aan de hand van 9 nieuwe taxonomiegerelateerde tekst-naar-beeld metrieken en menselijke feedback. Bovendien introduceren we het gebruik van paarsgewijze evaluatie met GPT-4 feedback voor beeldgeneratie. Experimentele resultaten tonen aan dat de rangschikking van modellen aanzienlijk verschilt van standaard T2I-taken. Playground-v2 en FLUX presteren consistent beter over alle metrieken en subsets, terwijl de op retrieval gebaseerde aanpak slecht presteert. Deze bevindingen benadrukken het potentieel voor het automatiseren van het samenstellen van gestructureerde databronnen.
English
This paper explores the feasibility of using text-to-image models in a
zero-shot setup to generate images for taxonomy concepts. While text-based
methods for taxonomy enrichment are well-established, the potential of the
visual dimension remains unexplored. To address this, we propose a
comprehensive benchmark for Taxonomy Image Generation that assesses models'
abilities to understand taxonomy concepts and generate relevant, high-quality
images. The benchmark includes common-sense and randomly sampled WordNet
concepts, alongside the LLM generated predictions. The 12 models are evaluated
using 9 novel taxonomy-related text-to-image metrics and human feedback.
Moreover, we pioneer the use of pairwise evaluation with GPT-4 feedback for
image generation. Experimental results show that the ranking of models differs
significantly from standard T2I tasks. Playground-v2 and FLUX consistently
outperform across metrics and subsets and the retrieval-based approach performs
poorly. These findings highlight the potential for automating the curation of
structured data resources.Summary
AI-Generated Summary