MineTheGap: 텍스트-이미지 모델의 편향 자동 탐지
MineTheGap: Automatic Mining of Biases in Text-to-Image Models
December 15, 2025
저자: Noa Cohen, Nurit Spingarn-Eliezer, Inbar Huberman-Spiegelglas, Tomer Michaeli
cs.AI
초록
텍스트-이미지(TTI) 모델은 텍스트 프롬프트를 기반으로 이미지를 생성하는데, 이때 프롬프트가 원하는 이미지의 특정 측면을 애매하게 남기는 경우가 많습니다. 이러한 애매모호함에 직면했을 때 TTI 모델은 해석 과정에서 편향을 보이는 것으로 나타났습니다. 이러한 편향은 특정 직업을 언급했을 때 한 인종만을 보여주는 경우와 같이 사회적 영향을 미칠 수 있습니다. 또한 다양한 가능성을 포괄하기보다 생성된 이미지 집합 내에서 중복성을 만들어내어 사용자 경험에도 영향을 미칠 수 있습니다. 본 논문에서는 TTI 모델이 편향된 출력을 생성하도록 하는 프롬프트를 자동으로 발굴하는 방법인 MineTheGap을 소개합니다. 우리의 방법은 주어진 프롬프트에 대한 편향 감지에 그치지 않습니다. 오히려 유전 알고리즘을 활용하여 프롬프트 풀을 반복적으로 정제하며 편향을 드러내는 프롬프트를 탐색합니다. 이 최적화 과정은 알려진 편향이 존재하는 데이터셋에서 검증한 바와 같이, 편향의 심각도에 따라 순위를 매기는 새로운 편향 점수에 의해 주도됩니다. 주어진 프롬프트에 대해 이 점수는 생성된 이미지의 분포를 해당 프롬프트의 변형을 구성하는 LLM 생성 텍스트의 분포와 비교하여 얻습니다. 코드와 예시는 프로젝트 웹페이지에서 확인할 수 있습니다.
English
Text-to-Image (TTI) models generate images based on text prompts, which often leave certain aspects of the desired image ambiguous. When faced with these ambiguities, TTI models have been shown to exhibit biases in their interpretations. These biases can have societal impacts, e.g., when showing only a certain race for a stated occupation. They can also affect user experience when creating redundancy within a set of generated images instead of spanning diverse possibilities. Here, we introduce MineTheGap - a method for automatically mining prompts that cause a TTI model to generate biased outputs. Our method goes beyond merely detecting bias for a given prompt. Rather, it leverages a genetic algorithm to iteratively refine a pool of prompts, seeking for those that expose biases. This optimization process is driven by a novel bias score, which ranks biases according to their severity, as we validate on a dataset with known biases. For a given prompt, this score is obtained by comparing the distribution of generated images to the distribution of LLM-generated texts that constitute variations on the prompt. Code and examples are available on the project's webpage.