Avaliação da Diversidade na Geração de Imagens por Meio de Avaliação Humana Condicionada por Atributos
Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation
November 13, 2025
Autores: Isabela Albuquerque, Ira Ktena, Olivia Wiles, Ivana Kajić, Amal Rannen-Triki, Cristina Vasconcelos, Aida Nematzadeh
cs.AI
Resumo
Apesar dos avanços na qualidade de geração, os modelos atuais de texto para imagem (T2I) frequentemente carecem de diversidade, produzindo resultados homogéneos. Este trabalho introduz um *framework* para abordar a necessidade de uma avaliação robusta da diversidade em modelos T2I. O nosso *framework* avalia sistematicamente a diversidade, analisando conceitos individuais e os seus respetivos fatores de variação. As principais contribuições incluem: (1) um novo modelo de avaliação humana para uma análise de diversidade mais subtil; (2) um conjunto de *prompts* criteriosamente selecionado, abrangendo conceitos diversos com os seus fatores de variação identificados (ex.: *prompt*: Uma imagem de uma maçã, fator de variação: cor); e (3) uma metodologia para comparar modelos com base em anotações humanas através de testes binomiais.
Além disso, comparamos rigorosamente vários *embeddings* de imagem para medição da diversidade. De forma notável, a nossa abordagem fundamentada permite hierarquizar modelos T2I por diversidade, identificando categorias em que estes têm particular dificuldade. Esta investigação oferece uma metodologia robusta e *insights*, abrindo caminho para melhorias na diversidade dos modelos T2I e no desenvolvimento de métricas.
English
Despite advances in generation quality, current text-to-image (T2I) models often lack diversity, generating homogeneous outputs. This work introduces a framework to address the need for robust diversity evaluation in T2I models. Our framework systematically assesses diversity by evaluating individual concepts and their relevant factors of variation. Key contributions include: (1) a novel human evaluation template for nuanced diversity assessment; (2) a curated prompt set covering diverse concepts with their identified factors of variation (e.g. prompt: An image of an apple, factor of variation: color); and (3) a methodology for comparing models in terms of human annotations via binomial tests.
Furthermore, we rigorously compare various image embeddings for diversity measurement. Notably, our principled approach enables ranking of T2I models by diversity, identifying categories where they particularly struggle. This research offers a robust methodology and insights, paving the way for improvements in T2I model diversity and metric development.