Я что, похож на `cat.n.01` для вас? Бенчмарк для генерации изображений таксономии
Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark
March 13, 2025
Авторы: Viktor Moskvoretskii, Alina Lobanova, Ekaterina Neminova, Chris Biemann, Alexander Panchenko, Irina Nikishina
cs.AI
Аннотация
В данной работе исследуется возможность использования моделей генерации изображений из текста в условиях zero-shot для создания изображений, соответствующих концептам таксономии. Хотя текстовые методы обогащения таксономии хорошо изучены, потенциал визуального измерения остается неисследованным. Для решения этой проблемы мы предлагаем комплексный бенчмарк для генерации изображений таксономии, который оценивает способности моделей понимать концепты таксономии и создавать релевантные, качественные изображения. Бенчмарк включает как общеизвестные, так и случайно выбранные концепты из WordNet, а также предсказания, сгенерированные языковыми моделями. 12 моделей оцениваются с использованием 9 новых метрик, связанных с таксономией, и обратной связи от людей. Кроме того, мы впервые применяем попарную оценку с использованием обратной связи GPT-4 для генерации изображений. Экспериментальные результаты показывают, что рейтинг моделей значительно отличается от стандартных задач генерации изображений из текста. Playground-v2 и FLUX стабильно демонстрируют лучшие результаты по всем метрикам и подмножествам, тогда как подход, основанный на извлечении, показывает низкую эффективность. Эти результаты подчеркивают потенциал автоматизации курирования структурированных ресурсов данных.
English
This paper explores the feasibility of using text-to-image models in a
zero-shot setup to generate images for taxonomy concepts. While text-based
methods for taxonomy enrichment are well-established, the potential of the
visual dimension remains unexplored. To address this, we propose a
comprehensive benchmark for Taxonomy Image Generation that assesses models'
abilities to understand taxonomy concepts and generate relevant, high-quality
images. The benchmark includes common-sense and randomly sampled WordNet
concepts, alongside the LLM generated predictions. The 12 models are evaluated
using 9 novel taxonomy-related text-to-image metrics and human feedback.
Moreover, we pioneer the use of pairwise evaluation with GPT-4 feedback for
image generation. Experimental results show that the ranking of models differs
significantly from standard T2I tasks. Playground-v2 and FLUX consistently
outperform across metrics and subsets and the retrieval-based approach performs
poorly. These findings highlight the potential for automating the curation of
structured data resources.Summary
AI-Generated Summary