ChatPaper.aiChatPaper

Valutazione delle prestazioni della diversità nella generazione di immagini tramite valutazione umana condizionata agli attributi

Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation

November 13, 2025
Autori: Isabela Albuquerque, Ira Ktena, Olivia Wiles, Ivana Kajić, Amal Rannen-Triki, Cristina Vasconcelos, Aida Nematzadeh
cs.AI

Abstract

Nonostante i progressi nella qualità generativa, gli attuali modelli testo-immagine (T2I) spesso mancano di diversità, producendo output omogenei. Questo lavoro introduce un framework per affrontare l'esigenza di una valutazione robusta della diversità nei modelli T2I. Il nostro framework valuta sistematicamente la diversità analizzando singoli concetti e i loro relativi fattori di variazione. I contributi chiave includono: (1) un modello innovativo per la valutazione umana della diversità di sfumature; (2) un set di prompt selezionati che copre concetti diversificati con i loro fattori di variazione identificati (es. prompt: Un'immagine di una mela, fattore di variazione: colore); e (3) una metodologia per confrontare i modelli mediante annotazioni umane tramite test binomiali. Inoltre, confrontiamo rigorosamente vari embedding d'immagine per la misurazione della diversità. Significativamente, il nostro approccio metodologico consente di classificare i modelli T2I per diversità, identificando le categorie in cui essi incontrano particolari difficoltà. Questa ricerca offre una metodologia solida e insight significativi, aprendo la strada a miglioramenti nella diversità dei modelli T2I e nello sviluppo di metriche.
English
Despite advances in generation quality, current text-to-image (T2I) models often lack diversity, generating homogeneous outputs. This work introduces a framework to address the need for robust diversity evaluation in T2I models. Our framework systematically assesses diversity by evaluating individual concepts and their relevant factors of variation. Key contributions include: (1) a novel human evaluation template for nuanced diversity assessment; (2) a curated prompt set covering diverse concepts with their identified factors of variation (e.g. prompt: An image of an apple, factor of variation: color); and (3) a methodology for comparing models in terms of human annotations via binomial tests. Furthermore, we rigorously compare various image embeddings for diversity measurement. Notably, our principled approach enables ranking of T2I models by diversity, identifying categories where they particularly struggle. This research offers a robust methodology and insights, paving the way for improvements in T2I model diversity and metric development.
PDF42December 1, 2025