ChatPaper.aiChatPaper

Est-ce que je ressemble à un `chat.n.01` pour vous ? Un benchmark de génération d'images taxonomiques

Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark

March 13, 2025
Auteurs: Viktor Moskvoretskii, Alina Lobanova, Ekaterina Neminova, Chris Biemann, Alexander Panchenko, Irina Nikishina
cs.AI

Résumé

Cet article explore la faisabilité d'utiliser des modèles texte-image dans un cadre zero-shot pour générer des images représentant des concepts taxonomiques. Alors que les méthodes basées sur le texte pour l'enrichissement des taxonomies sont bien établies, le potentiel de la dimension visuelle reste inexploré. Pour remédier à cela, nous proposons un benchmark complet pour la génération d'images taxonomiques, évaluant la capacité des modèles à comprendre les concepts taxonomiques et à générer des images pertinentes et de haute qualité. Le benchmark inclut des concepts de bon sens et des échantillons aléatoires issus de WordNet, ainsi que des prédictions générées par des modèles de langage (LLM). Les 12 modèles sont évalués à l'aide de 9 nouvelles métriques liées à la taxonomie pour les tâches texte-image, ainsi que par des retours humains. De plus, nous innovons en utilisant une évaluation par paires avec des retours de GPT-4 pour la génération d'images. Les résultats expérimentaux montrent que le classement des modèles diffère significativement de celui des tâches T2I standard. Playground-v2 et FLUX surpassent systématiquement les autres modèles sur l'ensemble des métriques et des sous-ensembles, tandis que l'approche basée sur la récupération obtient de faibles performances. Ces résultats mettent en lumière le potentiel d'automatisation de la curation des ressources de données structurées.
English
This paper explores the feasibility of using text-to-image models in a zero-shot setup to generate images for taxonomy concepts. While text-based methods for taxonomy enrichment are well-established, the potential of the visual dimension remains unexplored. To address this, we propose a comprehensive benchmark for Taxonomy Image Generation that assesses models' abilities to understand taxonomy concepts and generate relevant, high-quality images. The benchmark includes common-sense and randomly sampled WordNet concepts, alongside the LLM generated predictions. The 12 models are evaluated using 9 novel taxonomy-related text-to-image metrics and human feedback. Moreover, we pioneer the use of pairwise evaluation with GPT-4 feedback for image generation. Experimental results show that the ranking of models differs significantly from standard T2I tasks. Playground-v2 and FLUX consistently outperform across metrics and subsets and the retrieval-based approach performs poorly. These findings highlight the potential for automating the curation of structured data resources.

Summary

AI-Generated Summary

PDF112March 14, 2025