Модели языка видения слепы.
Vision language models are blind
July 9, 2024
Авторы: Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen
cs.AI
Аннотация
Большие языковые модели с возможностями зрения (VLM), например, GPT-4o и Gemini 1.5 Pro, силой питают бесчисленные приложения изображений и текста, набирая высокие баллы на многих бенчмарках понимания зрения. Тем не менее, мы обнаруживаем, что VLM терпят неудачу в 7 визуальных задачах, абсурдно легких для людей, таких как идентификация (a) пересекаются ли два круга; (b) пересекаются ли две линии; (c) какая буква выделена в слове; и (d) подсчет количества кругов в логотипе похожем на олимпийский. Шокирующе низкая производительность четырех передовых VLM говорит о том, что их зрение, в лучшем случае, похоже на зрение человека с близорукостью, видящего мелкие детали как размытые, а в худшем случае, на интеллектуального человека, который слеп и делает обоснованные предположения. Код доступен по ссылке: https://vlmsareblind.github.io/
English
Large language models with vision capabilities (VLMs), e.g., GPT-4o and
Gemini 1.5 Pro are powering countless image-text applications and scoring high
on many vision-understanding benchmarks. Yet, we find that VLMs fail on 7
visual tasks absurdly easy to humans such as identifying (a) whether two
circles overlap; (b) whether two lines intersect; (c) which letter is being
circled in a word; and (d) counting the number of circles in a Olympic-like
logo. The shockingly poor performance of four state-of-the-art VLMs suggests
their vision is, at best, like of a person with myopia seeing fine details as
blurry, and at worst, like an intelligent person that is blind making educated
guesses. Code is available at: https://vlmsareblind.github.io/Summary
AI-Generated Summary