MineTheGap: Mineração Automática de Vieses em Modelos de Texto para Imagem

Resumo

Os modelos de Texto-para-Imagem (TTI) geram imagens com base em prompts de texto, que frequentemente deixam aspectos da imagem desejada ambíguos. Ao depararem-se com essas ambiguidades, foi demonstrado que os modelos TTI exibem vieses nas suas interpretações. Estes vieses podem ter impactos societais, por exemplo, ao mostrar apenas uma determinada raça para uma profissão mencionada. Também podem afetar a experiência do utilizador ao criar redundância num conjunto de imagens geradas, em vez de abranger possibilidades diversas. Aqui, apresentamos o MineTheGap – um método para minar automaticamente prompts que levam um modelo TTI a gerar resultados enviesados. O nosso método vai além da mera deteção de viés para um prompt dado. Em vez disso, aproveita um algoritmo genético para refinar iterativamente um conjunto de prompts, procurando aqueles que expõem vieses. Este processo de otimização é orientado por uma nova métrica de viés, que classifica os vieses de acordo com a sua gravidade, conforme validamos num conjunto de dados com vieses conhecidos. Para um determinado prompt, esta pontuação é obtida comparando a distribuição de imagens geradas com a distribuição de textos gerados por LLM que constituem variações sobre o prompt. O código e exemplos estão disponíveis na página web do projeto.

English

Text-to-Image (TTI) models generate images based on text prompts, which often leave certain aspects of the desired image ambiguous. When faced with these ambiguities, TTI models have been shown to exhibit biases in their interpretations. These biases can have societal impacts, e.g., when showing only a certain race for a stated occupation. They can also affect user experience when creating redundancy within a set of generated images instead of spanning diverse possibilities. Here, we introduce MineTheGap - a method for automatically mining prompts that cause a TTI model to generate biased outputs. Our method goes beyond merely detecting bias for a given prompt. Rather, it leverages a genetic algorithm to iteratively refine a pool of prompts, seeking for those that expose biases. This optimization process is driven by a novel bias score, which ranks biases according to their severity, as we validate on a dataset with known biases. For a given prompt, this score is obtained by comparing the distribution of generated images to the distribution of LLM-generated texts that constitute variations on the prompt. Code and examples are available on the project's webpage.