MineTheGap: Minería Automática de Sesgos en Modelos de Texto a Imagen
MineTheGap: Automatic Mining of Biases in Text-to-Image Models
December 15, 2025
Autores: Noa Cohen, Nurit Spingarn-Eliezer, Inbar Huberman-Spiegelglas, Tomer Michaeli
cs.AI
Resumen
Los modelos de Texto a Imagen (TTI) generan imágenes basándose en indicaciones textuales, que a menudo dejan ciertos aspectos de la imagen deseada ambiguos. Al enfrentarse a estas ambigüedades, se ha demostrado que los modelos TTI exhiben sesgos en sus interpretaciones. Estos sesgos pueden tener impactos sociales, por ejemplo, al mostrar solo una determinada raza para una ocupación indicada. También pueden afectar la experiencia del usuario al crear redundancia dentro de un conjunto de imágenes generadas en lugar de abarcar diversas posibilidades. Aquí presentamos MineTheGap: un método para extraer automáticamente indicaciones que provoquen que un modelo TTI genere resultados sesgados. Nuestro método va más allá de simplemente detectar el sesgo para una indicación dada. Más bien, aprovecha un algoritmo genético para refinar iterativamente un conjunto de indicaciones, buscando aquellas que expongan sesgos. Este proceso de optimización es guiado por una nueva puntuación de sesgo, que clasifica los sesgos según su gravedad, tal como validamos en un conjunto de datos con sesgos conocidos. Para una indicación dada, esta puntuación se obtiene comparando la distribución de imágenes generadas con la distribución de textos generados por un Modelo de Lenguaje Grande (LLM) que constituyen variaciones de la indicación. El código y los ejemplos están disponibles en la página web del proyecto.
English
Text-to-Image (TTI) models generate images based on text prompts, which often leave certain aspects of the desired image ambiguous. When faced with these ambiguities, TTI models have been shown to exhibit biases in their interpretations. These biases can have societal impacts, e.g., when showing only a certain race for a stated occupation. They can also affect user experience when creating redundancy within a set of generated images instead of spanning diverse possibilities. Here, we introduce MineTheGap - a method for automatically mining prompts that cause a TTI model to generate biased outputs. Our method goes beyond merely detecting bias for a given prompt. Rather, it leverages a genetic algorithm to iteratively refine a pool of prompts, seeking for those that expose biases. This optimization process is driven by a novel bias score, which ranks biases according to their severity, as we validate on a dataset with known biases. For a given prompt, this score is obtained by comparing the distribution of generated images to the distribution of LLM-generated texts that constitute variations on the prompt. Code and examples are available on the project's webpage.