ChatPaper.aiChatPaper

Los Modelos de Lenguaje Visual están Sesgados

Vision Language Models are Biased

May 29, 2025
Autores: An Vo, Khai-Nguyen Nguyen, Mohammad Reza Taesiri, Vy Tuong Dang, Anh Totti Nguyen, Daeyoung Kim
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs) memorizan una gran cantidad de conocimiento previo de Internet que les ayuda en tareas posteriores, pero también pueden notoriamente sesgar sus resultados hacia respuestas incorrectas o parcializadas. En este trabajo, evaluamos cómo el conocimiento sobre temas populares afecta la precisión de los modelos de lenguaje visual (VLMs) en tareas visuales estándar y objetivas de conteo e identificación. Descubrimos que los VLMs de última generación están fuertemente sesgados (por ejemplo, incapaces de reconocer que se ha añadido una cuarta franja al logo de tres franjas de Adidas), obteniendo una precisión promedio del 17.05% en tareas de conteo (por ejemplo, contar franjas en un logo similar al de Adidas) en 7 dominios diversos que incluyen animales, logos, ajedrez, juegos de mesa, ilusiones ópticas y cuadrículas con patrones. Insertar texto (por ejemplo, "Adidas") que describe el nombre del tema en la imagen contrafactual disminuye aún más la precisión de los VLMs. Los sesgos en los VLMs son tan fuertes que instruirlos para que verifiquen sus resultados o se basen exclusivamente en los detalles de la imagen para responder solo mejora la precisión del conteo en +2 puntos, en promedio. Nuestro trabajo presenta un modo de fallo interesante en los VLMs y un marco automatizado para probar los sesgos en estos modelos. El código y los datos están disponibles en: vlmsarebiased.github.io.
English
Large language models (LLMs) memorize a vast amount of prior knowledge from the Internet that help them on downstream tasks but also may notoriously sway their outputs towards wrong or biased answers. In this work, we test how the knowledge about popular subjects hurt the accuracy of vision language models (VLMs) on standard, objective visual tasks of counting and identification. We find that state-of-the-art VLMs are strongly biased (e.g, unable to recognize a fourth stripe has been added to a 3-stripe Adidas logo) scoring an average of 17.05% accuracy in counting (e.g., counting stripes in an Adidas-like logo) across 7 diverse domains from animals, logos, chess, board games, optical illusions, to patterned grids. Insert text (e.g., "Adidas") describing the subject name into the counterfactual image further decreases VLM accuracy. The biases in VLMs are so strong that instructing them to double-check their results or rely exclusively on image details to answer improves counting accuracy by only +2 points, on average. Our work presents an interesting failure mode in VLMs and an automated framework for testing VLM biases. Code and data are available at: vlmsarebiased.github.io.
PDF172June 2, 2025