Les modèles de vision et de langage présentent des biais
Vision Language Models are Biased
May 29, 2025
Auteurs: An Vo, Khai-Nguyen Nguyen, Mohammad Reza Taesiri, Vy Tuong Dang, Anh Totti Nguyen, Daeyoung Kim
cs.AI
Résumé
Les grands modèles de langage (LLMs) mémorisent une vaste quantité de connaissances préalables provenant d'Internet, ce qui les aide dans les tâches en aval, mais peut également influencer de manière notoire leurs sorties vers des réponses erronées ou biaisées. Dans ce travail, nous testons comment la connaissance de sujets populaires nuit à la précision des modèles de vision et de langage (VLMs) sur des tâches visuelles standard et objectives de comptage et d'identification. Nous constatons que les VLMs de pointe sont fortement biaisés (par exemple, incapables de reconnaître qu'une quatrième bande a été ajoutée au logo à trois bandes d'Adidas), obtenant une précision moyenne de 17,05 % en comptage (par exemple, compter les bandes dans un logo similaire à celui d'Adidas) sur 7 domaines variés allant des animaux, logos, échecs, jeux de société, illusions d'optique, aux grilles à motifs. L'insertion de texte (par exemple, "Adidas") décrivant le nom du sujet dans l'image contrefactuelle réduit encore la précision des VLMs. Les biais dans les VLMs sont si forts que leur demander de revérifier leurs résultats ou de s'appuyer exclusivement sur les détails de l'image pour répondre n'améliore la précision en comptage que de +2 points, en moyenne. Notre travail présente un mode d'échec intéressant dans les VLMs et un cadre automatisé pour tester les biais des VLMs. Le code et les données sont disponibles à l'adresse : vlmsarebiased.github.io.
English
Large language models (LLMs) memorize a vast amount of prior knowledge from
the Internet that help them on downstream tasks but also may notoriously sway
their outputs towards wrong or biased answers. In this work, we test how the
knowledge about popular subjects hurt the accuracy of vision language models
(VLMs) on standard, objective visual tasks of counting and identification. We
find that state-of-the-art VLMs are strongly biased (e.g, unable to recognize a
fourth stripe has been added to a 3-stripe Adidas logo) scoring an average of
17.05% accuracy in counting (e.g., counting stripes in an Adidas-like logo)
across 7 diverse domains from animals, logos, chess, board games, optical
illusions, to patterned grids. Insert text (e.g., "Adidas") describing the
subject name into the counterfactual image further decreases VLM accuracy. The
biases in VLMs are so strong that instructing them to double-check their
results or rely exclusively on image details to answer improves counting
accuracy by only +2 points, on average. Our work presents an interesting
failure mode in VLMs and an automated framework for testing VLM biases. Code
and data are available at: vlmsarebiased.github.io.