ChatPaper.aiChatPaper

속성 조건 기반 인간 평가를 통한 이미지 생성 다양성 벤치마킹

Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation

November 13, 2025
저자: Isabela Albuquerque, Ira Ktena, Olivia Wiles, Ivana Kajić, Amal Rannen-Triki, Cristina Vasconcelos, Aida Nematzadeh
cs.AI

초록

생성 품질의 발전에도 불구하고, 현재의 텍스트-이미지(T2I) 모델은 종종 동질적인 결과물을 생성하며 다양성이 부족한 경향이 있습니다. 본 연구는 T2I 모델의 견고한 다양성 평가 필요성을 해결하기 위한 프레임워크를 소개합니다. 우리의 프레임워크는 개별 개념과 해당 개념의 변이 요인을 평가하여 다양성을 체계적으로 분석합니다. 주요 기여점은 다음과 같습니다: (1) 미세한 다양성 평가를 위한 새로운 인간 평가 템플릿; (2) 다양한 개념과 각각의 식별된 변이 요인(예: 프롬프트: 사과 이미지, 변이 요인: 색상)을 포함하는 엄선된 프롬프트 세트; (3) 이항 검정을 통한 인간 주석 기반 모델 비교 방법론. 더 나아가, 우리는 다양성 측정을 위한 다양한 이미지 임베딩 방법을 엄격하게 비교합니다. 특히, 이 원리 기반 접근법을 통해 T2I 모델을 다양성에 따라 순위를 매기고, 모델이 특히 어려움을 겪는 범주를 식별할 수 있습니다. 본 연구는 견고한 방법론과 통찰을 제공하여 T2I 모델의 다양성 및 측정 지표 개발 개선을 위한 길을 열어줍니다.
English
Despite advances in generation quality, current text-to-image (T2I) models often lack diversity, generating homogeneous outputs. This work introduces a framework to address the need for robust diversity evaluation in T2I models. Our framework systematically assesses diversity by evaluating individual concepts and their relevant factors of variation. Key contributions include: (1) a novel human evaluation template for nuanced diversity assessment; (2) a curated prompt set covering diverse concepts with their identified factors of variation (e.g. prompt: An image of an apple, factor of variation: color); and (3) a methodology for comparing models in terms of human annotations via binomial tests. Furthermore, we rigorously compare various image embeddings for diversity measurement. Notably, our principled approach enables ranking of T2I models by diversity, identifying categories where they particularly struggle. This research offers a robust methodology and insights, paving the way for improvements in T2I model diversity and metric development.
PDF42December 1, 2025