Benchmarking von Diversität in der Bildgenerierung durch attributbedingte humane Bewertung
Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation
November 13, 2025
papers.authors: Isabela Albuquerque, Ira Ktena, Olivia Wiles, Ivana Kajić, Amal Rannen-Triki, Cristina Vasconcelos, Aida Nematzadeh
cs.AI
papers.abstract
Trotz Fortschritten in der Generierungsqualität mangelt es aktuellen Text-zu-Bild (T2I)-Modellen oft an Diversität und sie erzeugen homogene Ergebnisse. Diese Arbeit stellt ein Framework vor, das den Bedarf an einer robusten Diversitätsbewertung für T2I-Modelle adressiert. Unser Framework bewertet Diversität systematisch, indem es einzelne Konzepte und ihre relevanten Variationsfaktoren evaluiert. Zu den wichtigsten Beiträgen gehören: (1) eine neuartige Vorlage für humanevaluierte, nuancierte Diversitätsbewertung; (2) ein kuratiertes Prompt-Set, das diverse Konzepte mit ihren identifizierten Variationsfaktoren abdeckt (z.B. Prompt: Ein Bild eines Apfels, Variationsfaktor: Farbe); und (3) eine Methodik zum Vergleich von Modellen anhand humaner Annotationen mittels Binomialtests.
Darüber hinaus vergleichen wir rigoros verschiedene Bild-Einbettungen für die Diversitätsmessung. Unser prinzipienbasierter Ansatz ermöglicht insbesondere die Rangordnung von T2I-Modellen nach ihrer Diversität und identifiziert Kategorien, in denen sie besondere Schwächen aufweisen. Diese Forschung bietet eine robuste Methodik und Erkenntnisse, die den Weg für Verbesserungen der Diversität von T2I-Modellen und die Entwicklung neuer Metriken ebnen.
English
Despite advances in generation quality, current text-to-image (T2I) models often lack diversity, generating homogeneous outputs. This work introduces a framework to address the need for robust diversity evaluation in T2I models. Our framework systematically assesses diversity by evaluating individual concepts and their relevant factors of variation. Key contributions include: (1) a novel human evaluation template for nuanced diversity assessment; (2) a curated prompt set covering diverse concepts with their identified factors of variation (e.g. prompt: An image of an apple, factor of variation: color); and (3) a methodology for comparing models in terms of human annotations via binomial tests.
Furthermore, we rigorously compare various image embeddings for diversity measurement. Notably, our principled approach enables ranking of T2I models by diversity, identifying categories where they particularly struggle. This research offers a robust methodology and insights, paving the way for improvements in T2I model diversity and metric development.