Benchmarken van Diversiteit in Beeldgeneratie via Attribuut-Gebonden Menselijke Evaluatie
Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation
November 13, 2025
Auteurs: Isabela Albuquerque, Ira Ktena, Olivia Wiles, Ivana Kajić, Amal Rannen-Triki, Cristina Vasconcelos, Aida Nematzadeh
cs.AI
Samenvatting
Ondanks vooruitgang in generatiekwaliteit vertonen huidige tekst-naar-beeldmodellen (T2I) vaak een gebrek aan diversiteit, waarbij ze homogene output produceren. Dit werk introduceert een raamwerk om de behoefte aan robuuste diversiteitsevaluatie in T2I-modellen aan te pakken. Ons raamwerk beoordeelt diversiteit systematisch door individuele concepten en hun relevante variatiefactoren te evalueren. Belangrijke bijdragen omvatten: (1) een nieuwe sjabloon voor humane evaluatie voor genuanceerde diversiteitsbeoordeling; (2) een samengestelde promptset die diverse concepten dekt met hun geïdentificeerde variatiefactoren (bijv. prompt: Een afbeelding van een appel, variatiefactor: kleur); en (3) een methodologie voor het vergelijken van modellen op basis van humane annotaties via binomiale toetsen.
Verder vergelijken we rigoureus verschillende beeld-embeddingen voor diversiteitsmeting. Onze principiële aanpak maakt het mogelijk T2I-modellen op diversiteit te rangschikken en categorieën te identificeren waarin ze bijzonder zwak presteren. Dit onderzoek biedt een robuuste methodologie en inzichten, waardoor de weg wordt geëffend voor verbeteringen in T2I-modeldiversiteit en de ontwikkeling van metrieken.
English
Despite advances in generation quality, current text-to-image (T2I) models often lack diversity, generating homogeneous outputs. This work introduces a framework to address the need for robust diversity evaluation in T2I models. Our framework systematically assesses diversity by evaluating individual concepts and their relevant factors of variation. Key contributions include: (1) a novel human evaluation template for nuanced diversity assessment; (2) a curated prompt set covering diverse concepts with their identified factors of variation (e.g. prompt: An image of an apple, factor of variation: color); and (3) a methodology for comparing models in terms of human annotations via binomial tests.
Furthermore, we rigorously compare various image embeddings for diversity measurement. Notably, our principled approach enables ranking of T2I models by diversity, identifying categories where they particularly struggle. This research offers a robust methodology and insights, paving the way for improvements in T2I model diversity and metric development.