Évaluation comparative de la diversité dans la génération d'images par évaluation humaine conditionnée par attributs
Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation
November 13, 2025
papers.authors: Isabela Albuquerque, Ira Ktena, Olivia Wiles, Ivana Kajić, Amal Rannen-Triki, Cristina Vasconcelos, Aida Nematzadeh
cs.AI
papers.abstract
Malgré les progrès réalisés en matière de qualité de génération, les modèles actuels de texte-à-image (T2I) manquent souvent de diversité, produisant des résultats homogènes. Ce travail introduit un cadre pour répondre au besoin d'une évaluation robuste de la diversité dans les modèles T2I. Notre cadre évalue systématiquement la diversité en examinant des concepts individuels et leurs facteurs de variation pertinents. Les contributions principales incluent : (1) un nouveau modèle d'évaluation humaine pour une analyse nuancée de la diversité ; (2) un ensemble de prompts soigneusement sélectionnés couvrant des concepts variés avec leurs facteurs de variation identifiés (ex. prompt : Une image d'une pomme, facteur de variation : couleur) ; et (3) une méthodologie pour comparer les modèles via des tests binomiaux basés sur des annotations humaines.
De plus, nous comparons rigoureusement différents plongements (*embeddings*) d'images pour la mesure de la diversité. Notre approche méthodique permet notamment de classer les modèles T2I par leur diversité et d'identifier les catégories pour lesquelles ils présentent des difficultés particulières. Cette recherche propose une méthodologie robuste et des insights précieux, ouvrant la voie à des améliorations dans la diversité des modèles T2I et au développement de métriques associées.
English
Despite advances in generation quality, current text-to-image (T2I) models often lack diversity, generating homogeneous outputs. This work introduces a framework to address the need for robust diversity evaluation in T2I models. Our framework systematically assesses diversity by evaluating individual concepts and their relevant factors of variation. Key contributions include: (1) a novel human evaluation template for nuanced diversity assessment; (2) a curated prompt set covering diverse concepts with their identified factors of variation (e.g. prompt: An image of an apple, factor of variation: color); and (3) a methodology for comparing models in terms of human annotations via binomial tests.
Furthermore, we rigorously compare various image embeddings for diversity measurement. Notably, our principled approach enables ranking of T2I models by diversity, identifying categories where they particularly struggle. This research offers a robust methodology and insights, paving the way for improvements in T2I model diversity and metric development.