MineTheGap: Estrazione Automatica dei Pregiudizi nei Modelli Text-to-Image
MineTheGap: Automatic Mining of Biases in Text-to-Image Models
December 15, 2025
Autori: Noa Cohen, Nurit Spingarn-Eliezer, Inbar Huberman-Spiegelglas, Tomer Michaeli
cs.AI
Abstract
I modelli Text-to-Image (TTI) generano immagini basandosi su prompt testuali, che spesso lasciano ambigui alcuni aspetti dell'immagine desiderata. Di fronte a queste ambiguità, è stato dimostrato che i modelli TTI mostrano pregiudizi (bias) nelle loro interpretazioni. Questi bias possono avere impatti sociali, ad esempio mostrando solo una certa etnia per una professione indicata. Possono anche influenzare l'esperienza utente creando ridondanza all'interno di un insieme di immagini generate, invece di coprire diverse possibilità. Qui presentiamo MineTheGap, un metodo per individuare automaticamente i prompt che causano la generazione di output distorti da parte di un modello TTI. Il nostro metodo va oltre la semplice rilevazione del bias per un prompt dato. Piuttosto, sfrutta un algoritmo genetico per perfezionare iterativamente un pool di prompt, cercando quelli che espongono i bias. Questo processo di ottimizzazione è guidato da un nuovo punteggio di bias, che classifica i pregiudizi in base alla loro gravità, come convalidiamo su un dataset con bias noti. Per un dato prompt, questo punteggio si ottiene confrontando la distribuzione delle immagini generate con la distribuzione di testi generati da LLM che costituiscono variazioni sul prompt. Il codice e gli esempi sono disponibili sulla pagina web del progetto.
English
Text-to-Image (TTI) models generate images based on text prompts, which often leave certain aspects of the desired image ambiguous. When faced with these ambiguities, TTI models have been shown to exhibit biases in their interpretations. These biases can have societal impacts, e.g., when showing only a certain race for a stated occupation. They can also affect user experience when creating redundancy within a set of generated images instead of spanning diverse possibilities. Here, we introduce MineTheGap - a method for automatically mining prompts that cause a TTI model to generate biased outputs. Our method goes beyond merely detecting bias for a given prompt. Rather, it leverages a genetic algorithm to iteratively refine a pool of prompts, seeking for those that expose biases. This optimization process is driven by a novel bias score, which ranks biases according to their severity, as we validate on a dataset with known biases. For a given prompt, this score is obtained by comparing the distribution of generated images to the distribution of LLM-generated texts that constitute variations on the prompt. Code and examples are available on the project's webpage.