MineTheGap: Automatisches Aufdecken von Verzerrungen in Text-zu-Bild-Modellen
MineTheGap: Automatic Mining of Biases in Text-to-Image Models
December 15, 2025
papers.authors: Noa Cohen, Nurit Spingarn-Eliezer, Inbar Huberman-Spiegelglas, Tomer Michaeli
cs.AI
papers.abstract
Text-to-Image (TTI)-Modelle generieren Bilder auf der Grundlage von Textprompts, die oft bestimmte Aspekte des gewünschten Bildes unklar lassen. Bei solchen Unklarheiten hat sich gezeigt, dass TTI-Modelle bei ihren Interpretationen Verzerrungen (Biases) aufweisen. Diese Verzerrungen können gesellschaftliche Auswirkungen haben, z. B. wenn für einen genannten Beruf nur eine bestimmte Hautfarbe dargestellt wird. Sie können sich auch auf das Nutzererlebnis auswirken, indem sie innerhalb eines Satzes generierter Bilder Redundanz erzeugen, anstatt verschiedene Möglichkeiten abzudecken. Hier stellen wir MineTheGap vor – eine Methode zur automatischen Extraktion von Prompts, die bei einem TTI-Modell zu verzerrten Ausgaben führen. Unsere Methode beschränkt sich nicht darauf, Verzerrungen für einen gegebenen Prompt lediglich zu erkennen. Stattdessen nutzt sie einen genetischen Algorithmus, um einen Pool von Prompts iterativ zu verfeinern und gezielt solche zu finden, die Verzerrungen aufdecken. Dieser Optimierungsprozess wird von einer neuartigen Bias-Bewertung gesteuert, die Verzerrungen nach ihrer Schwere einstuft, wie wir an einem Datensatz mit bekannten Verzerrungen validieren. Für einen gegebenen Prompt wird dieser Score durch den Vergleich der Verteilung der generierten Bilder mit der Verteilung von LLM-generierten Texten ermittelt, die Variationen des Prompts darstellen. Code und Beispiele sind auf der Projektwebseite verfügbar.
English
Text-to-Image (TTI) models generate images based on text prompts, which often leave certain aspects of the desired image ambiguous. When faced with these ambiguities, TTI models have been shown to exhibit biases in their interpretations. These biases can have societal impacts, e.g., when showing only a certain race for a stated occupation. They can also affect user experience when creating redundancy within a set of generated images instead of spanning diverse possibilities. Here, we introduce MineTheGap - a method for automatically mining prompts that cause a TTI model to generate biased outputs. Our method goes beyond merely detecting bias for a given prompt. Rather, it leverages a genetic algorithm to iteratively refine a pool of prompts, seeking for those that expose biases. This optimization process is driven by a novel bias score, which ranks biases according to their severity, as we validate on a dataset with known biases. For a given prompt, this score is obtained by comparing the distribution of generated images to the distribution of LLM-generated texts that constitute variations on the prompt. Code and examples are available on the project's webpage.