ChatPaper.aiChatPaper

Evaluación Humana Condicionada por Atributos para la Comparativa de Diversidad en la Generación de Imágenes

Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation

November 13, 2025
Autores: Isabela Albuquerque, Ira Ktena, Olivia Wiles, Ivana Kajić, Amal Rannen-Triki, Cristina Vasconcelos, Aida Nematzadeh
cs.AI

Resumen

A pesar de los avances en la calidad de generación, los modelos actuales de texto a imagen (T2I) a menudo carecen de diversidad, produciendo resultados homogéneos. Este trabajo presenta un marco para abordar la necesidad de una evaluación robusta de la diversidad en los modelos T2I. Nuestro marco evalúa sistemáticamente la diversidad analizando conceptos individuales y sus factores relevantes de variación. Las contribuciones clave incluyen: (1) una novedosa plantilla de evaluación humana para una valoración de la diversidad matizada; (2) un conjunto de prompts cuidadosamente seleccionado que abarca conceptos diversos con sus factores de variación identificados (por ejemplo, prompt: *Una imagen de una manzana*, factor de variación: *color*); y (3) una metodología para comparar modelos en función de anotaciones humanas mediante pruebas binomiales. Además, comparamos rigurosamente varios *embeddings* de imagen para la medición de la diversidad. Cabe destacar que nuestro enfoque basado en principios permite clasificar los modelos T2I por su diversidad, identificando categorías en las que presentan dificultades particulares. Esta investigación ofrece una metodología robusta y perspectivas valiosas, allanando el camino para mejorar la diversidad de los modelos T2I y el desarrollo de nuevas métricas.
English
Despite advances in generation quality, current text-to-image (T2I) models often lack diversity, generating homogeneous outputs. This work introduces a framework to address the need for robust diversity evaluation in T2I models. Our framework systematically assesses diversity by evaluating individual concepts and their relevant factors of variation. Key contributions include: (1) a novel human evaluation template for nuanced diversity assessment; (2) a curated prompt set covering diverse concepts with their identified factors of variation (e.g. prompt: An image of an apple, factor of variation: color); and (3) a methodology for comparing models in terms of human annotations via binomial tests. Furthermore, we rigorously compare various image embeddings for diversity measurement. Notably, our principled approach enables ranking of T2I models by diversity, identifying categories where they particularly struggle. This research offers a robust methodology and insights, paving the way for improvements in T2I model diversity and metric development.
PDF42December 1, 2025