ChatPaper.aiChatPaper

Vision-Language-Modelle sind voreingenommen.

Vision Language Models are Biased

May 29, 2025
Autoren: An Vo, Khai-Nguyen Nguyen, Mohammad Reza Taesiri, Vy Tuong Dang, Anh Totti Nguyen, Daeyoung Kim
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) speichern eine enorme Menge an Vorwissen aus dem Internet, das ihnen bei nachgelagerten Aufgaben hilft, aber auch ihre Ausgaben berüchtigt in Richtung falscher oder voreingenommener Antworten lenken kann. In dieser Arbeit untersuchen wir, wie das Wissen über populäre Themen die Genauigkeit von visuellen Sprachmodellen (VLMs) bei standardisierten, objektiven visuellen Aufgaben wie Zählen und Identifikation beeinträchtigt. Wir stellen fest, dass state-of-the-art VLMs stark voreingenommen sind (z. B. nicht in der Lage, einen vierten Streifen in einem 3-streifigen Adidas-Logo zu erkennen) und im Durchschnitt eine Genauigkeit von 17,05 % beim Zählen (z. B. Zählen von Streifen in einem Adidas-ähnlichen Logo) über 7 verschiedene Domänen von Tieren, Logos, Schach, Brettspielen, optischen Täuschungen bis hin zu gemusterten Gittern erreichen. Das Einfügen von Text (z. B. „Adidas“), der den Namen des Subjekts beschreibt, in das kontrafaktische Bild verringert die Genauigkeit der VLMs weiter. Die Voreingenommenheit in VLMs ist so stark, dass die Anweisung, ihre Ergebnisse noch einmal zu überprüfen oder sich ausschließlich auf Bilddetails zu verlassen, um zu antworten, die Zählgenauigkeit im Durchschnitt nur um +2 Punkte verbessert. Unsere Arbeit präsentiert einen interessanten Fehlermodus in VLMs und ein automatisiertes Framework zur Überprüfung von VLM-Voreingenommenheiten. Code und Daten sind verfügbar unter: vlmsarebiased.github.io.
English
Large language models (LLMs) memorize a vast amount of prior knowledge from the Internet that help them on downstream tasks but also may notoriously sway their outputs towards wrong or biased answers. In this work, we test how the knowledge about popular subjects hurt the accuracy of vision language models (VLMs) on standard, objective visual tasks of counting and identification. We find that state-of-the-art VLMs are strongly biased (e.g, unable to recognize a fourth stripe has been added to a 3-stripe Adidas logo) scoring an average of 17.05% accuracy in counting (e.g., counting stripes in an Adidas-like logo) across 7 diverse domains from animals, logos, chess, board games, optical illusions, to patterned grids. Insert text (e.g., "Adidas") describing the subject name into the counterfactual image further decreases VLM accuracy. The biases in VLMs are so strong that instructing them to double-check their results or rely exclusively on image details to answer improves counting accuracy by only +2 points, on average. Our work presents an interesting failure mode in VLMs and an automated framework for testing VLM biases. Code and data are available at: vlmsarebiased.github.io.
PDF172June 2, 2025