Модели обработки зрения и языка обладают предвзятостью.
Vision Language Models are Biased
May 29, 2025
Авторы: An Vo, Khai-Nguyen Nguyen, Mohammad Reza Taesiri, Vy Tuong Dang, Anh Totti Nguyen, Daeyoung Kim
cs.AI
Аннотация
Крупные языковые модели (LLM) запоминают огромный объем предварительных знаний из Интернета, которые помогают им в решении последующих задач, но также могут печально известным образом склонять их выводы к ошибочным или предвзятым ответам. В данной работе мы исследуем, как знания о популярных темах снижают точность визуально-языковых моделей (VLM) в стандартных, объективных визуальных задачах, таких как подсчет и идентификация. Мы обнаруживаем, что современные VLM сильно предвзяты (например, не могут распознать добавление четвертой полосы к логотипу Adidas с тремя полосами), показывая среднюю точность 17,05% в задачах подсчета (например, подсчет полос в логотипе, похожем на Adidas) в 7 различных областях, включая животных, логотипы, шахматы, настольные игры, оптические иллюзии и узорчатые сетки. Добавление текста (например, "Adidas"), описывающего название объекта, в контрфактическое изображение еще больше снижает точность VLM. Предвзятость в VLM настолько сильна, что указание им перепроверить свои результаты или полагаться исключительно на детали изображения для ответа улучшает точность подсчета в среднем всего на +2 пункта. Наша работа демонстрирует интересный сбой в работе VLM и автоматизированную структуру для тестирования предвзятости VLM. Код и данные доступны по адресу: vlmsarebiased.github.io.
English
Large language models (LLMs) memorize a vast amount of prior knowledge from
the Internet that help them on downstream tasks but also may notoriously sway
their outputs towards wrong or biased answers. In this work, we test how the
knowledge about popular subjects hurt the accuracy of vision language models
(VLMs) on standard, objective visual tasks of counting and identification. We
find that state-of-the-art VLMs are strongly biased (e.g, unable to recognize a
fourth stripe has been added to a 3-stripe Adidas logo) scoring an average of
17.05% accuracy in counting (e.g., counting stripes in an Adidas-like logo)
across 7 diverse domains from animals, logos, chess, board games, optical
illusions, to patterned grids. Insert text (e.g., "Adidas") describing the
subject name into the counterfactual image further decreases VLM accuracy. The
biases in VLMs are so strong that instructing them to double-check their
results or rely exclusively on image details to answer improves counting
accuracy by only +2 points, on average. Our work presents an interesting
failure mode in VLMs and an automated framework for testing VLM biases. Code
and data are available at: vlmsarebiased.github.io.