Modelos de Linguagem Visual são Tendenciosos
Vision Language Models are Biased
May 29, 2025
Autores: An Vo, Khai-Nguyen Nguyen, Mohammad Reza Taesiri, Vy Tuong Dang, Anh Totti Nguyen, Daeyoung Kim
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) memorizam uma vasta quantidade de conhecimento prévio da Internet que os ajuda em tarefas subsequentes, mas também pode notoriamente influenciar suas saídas em direção a respostas erradas ou tendenciosas. Neste trabalho, testamos como o conhecimento sobre assuntos populares prejudica a precisão de modelos de linguagem visual (VLMs) em tarefas visuais padrão e objetivas de contagem e identificação. Descobrimos que os VLMs de última geração são fortemente tendenciosos (por exemplo, incapazes de reconhecer que uma quarta listra foi adicionada ao logotipo de três listras da Adidas), obtendo uma precisão média de 17,05% em tarefas de contagem (por exemplo, contar listras em um logotipo semelhante ao da Adidas) em 7 domínios diversos, que vão desde animais, logotipos, xadrez, jogos de tabuleiro, ilusões de ótica até grades padronizadas. Inserir texto (por exemplo, "Adidas") descrevendo o nome do assunto na imagem contrafactual diminui ainda mais a precisão do VLM. Os vieses nos VLMs são tão fortes que instruí-los a verificar novamente seus resultados ou confiar exclusivamente nos detalhes da imagem para responder melhora a precisão da contagem em apenas +2 pontos, em média. Nosso trabalho apresenta um modo de falha interessante em VLMs e um framework automatizado para testar vieses em VLMs. Código e dados estão disponíveis em: vlmsarebiased.github.io.
English
Large language models (LLMs) memorize a vast amount of prior knowledge from
the Internet that help them on downstream tasks but also may notoriously sway
their outputs towards wrong or biased answers. In this work, we test how the
knowledge about popular subjects hurt the accuracy of vision language models
(VLMs) on standard, objective visual tasks of counting and identification. We
find that state-of-the-art VLMs are strongly biased (e.g, unable to recognize a
fourth stripe has been added to a 3-stripe Adidas logo) scoring an average of
17.05% accuracy in counting (e.g., counting stripes in an Adidas-like logo)
across 7 diverse domains from animals, logos, chess, board games, optical
illusions, to patterned grids. Insert text (e.g., "Adidas") describing the
subject name into the counterfactual image further decreases VLM accuracy. The
biases in VLMs are so strong that instructing them to double-check their
results or rely exclusively on image details to answer improves counting
accuracy by only +2 points, on average. Our work presents an interesting
failure mode in VLMs and an automated framework for testing VLM biases. Code
and data are available at: vlmsarebiased.github.io.