私はあなたにとって`cat.n.01`のように見えますか? タクソノミー画像生成ベンチマーク
Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark
March 13, 2025
著者: Viktor Moskvoretskii, Alina Lobanova, Ekaterina Neminova, Chris Biemann, Alexander Panchenko, Irina Nikishina
cs.AI
要旨
本論文では、ゼロショット設定におけるテキストから画像への生成モデルを用いて、分類学概念の画像を生成する可能性を探る。分類学の拡充におけるテキストベースの手法は確立されているが、視覚的側面の可能性は未開拓である。この課題に対処するため、我々は分類学概念を理解し、関連性の高い高品質な画像を生成するモデルの能力を評価するための包括的なベンチマーク「Taxonomy Image Generation」を提案する。このベンチマークには、常識的な概念とランダムにサンプリングされたWordNet概念、およびLLMが生成した予測が含まれる。12のモデルは、9つの新しい分類学関連のテキストから画像への評価指標と人間のフィードバックを用いて評価される。さらに、GPT-4のフィードバックを用いたペアワイズ評価を画像生成に初めて適用する。実験結果は、モデルのランキングが標準的なT2Iタスクとは大きく異なることを示している。Playground-v2とFLUXは、指標とサブセット全体で一貫して優れた性能を示し、検索ベースのアプローチは低い性能にとどまる。これらの発見は、構造化データリソースのキュレーションを自動化する可能性を強調するものである。
English
This paper explores the feasibility of using text-to-image models in a
zero-shot setup to generate images for taxonomy concepts. While text-based
methods for taxonomy enrichment are well-established, the potential of the
visual dimension remains unexplored. To address this, we propose a
comprehensive benchmark for Taxonomy Image Generation that assesses models'
abilities to understand taxonomy concepts and generate relevant, high-quality
images. The benchmark includes common-sense and randomly sampled WordNet
concepts, alongside the LLM generated predictions. The 12 models are evaluated
using 9 novel taxonomy-related text-to-image metrics and human feedback.
Moreover, we pioneer the use of pairwise evaluation with GPT-4 feedback for
image generation. Experimental results show that the ranking of models differs
significantly from standard T2I tasks. Playground-v2 and FLUX consistently
outperform across metrics and subsets and the retrieval-based approach performs
poorly. These findings highlight the potential for automating the curation of
structured data resources.Summary
AI-Generated Summary