내가 당신에게 `고양이.n.01`처럼 보이나요? 분류학적 이미지 생성 벤치마크
Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark
March 13, 2025
저자: Viktor Moskvoretskii, Alina Lobanova, Ekaterina Neminova, Chris Biemann, Alexander Panchenko, Irina Nikishina
cs.AI
초록
본 논문은 텍스트-이미지 모델을 제로샷 설정에서 활용하여 분류학 개념에 대한 이미지를 생성하는 가능성을 탐구한다. 분류학 확장을 위한 텍스트 기반 방법은 잘 정립되어 있지만, 시각적 차원의 잠재력은 아직 탐구되지 않았다. 이를 해결하기 위해, 우리는 분류학 개념을 이해하고 관련성 높은 고품질 이미지를 생성하는 모델의 능력을 평가하는 '분류학 이미지 생성'을 위한 포괄적인 벤치마크를 제안한다. 이 벤치마크는 상식적 개념과 무작위로 샘플링된 WordNet 개념, 그리고 대형 언어 모델(LLM)이 생성한 예측을 포함한다. 12개의 모델은 9개의 새로운 분류학 관련 텍스트-이미지 메트릭과 인간 피드백을 통해 평가된다. 또한, 우리는 GPT-4 피드백을 활용한 이미지 생성에 대한 페어와이즈 평가를 최초로 시도한다. 실험 결과는 모델의 순위가 표준 T2I 작업과 크게 다르다는 것을 보여준다. Playground-v2와 FLUX는 다양한 메트릭과 하위 집단에서 일관되게 우수한 성능을 보였으며, 검색 기반 접근법은 낮은 성능을 보였다. 이러한 발견은 구조화된 데이터 리소스의 자동화된 큐레이션 가능성을 강조한다.
English
This paper explores the feasibility of using text-to-image models in a
zero-shot setup to generate images for taxonomy concepts. While text-based
methods for taxonomy enrichment are well-established, the potential of the
visual dimension remains unexplored. To address this, we propose a
comprehensive benchmark for Taxonomy Image Generation that assesses models'
abilities to understand taxonomy concepts and generate relevant, high-quality
images. The benchmark includes common-sense and randomly sampled WordNet
concepts, alongside the LLM generated predictions. The 12 models are evaluated
using 9 novel taxonomy-related text-to-image metrics and human feedback.
Moreover, we pioneer the use of pairwise evaluation with GPT-4 feedback for
image generation. Experimental results show that the ranking of models differs
significantly from standard T2I tasks. Playground-v2 and FLUX consistently
outperform across metrics and subsets and the retrieval-based approach performs
poorly. These findings highlight the potential for automating the curation of
structured data resources.Summary
AI-Generated Summary