Os modelos de linguagem de visão são cegos.
Vision language models are blind
July 9, 2024
Autores: Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen
cs.AI
Resumo
Grandes modelos de linguagem com capacidades de visão (VLMs), como GPT-4o e Gemini 1.5 Pro, estão impulsionando inúmeras aplicações de imagem-texto e obtendo altas pontuações em muitos benchmarks de compreensão de visão. No entanto, observamos que os VLMs falham em 7 tarefas visuais absurdamente fáceis para os humanos, como identificar (a) se dois círculos se sobrepõem; (b) se duas linhas se intersectam; (c) qual letra está sendo circulada em uma palavra; e (d) contar o número de círculos em um logotipo semelhante ao das Olimpíadas. O desempenho surpreendentemente fraco de quatro VLMs de última geração sugere que sua visão é, na melhor das hipóteses, como a de uma pessoa com miopia que vê detalhes finos como borrados, e na pior das hipóteses, como a de uma pessoa inteligente que está cega fazendo suposições educadas. O código está disponível em: https://vlmsareblind.github.io/
English
Large language models with vision capabilities (VLMs), e.g., GPT-4o and
Gemini 1.5 Pro are powering countless image-text applications and scoring high
on many vision-understanding benchmarks. Yet, we find that VLMs fail on 7
visual tasks absurdly easy to humans such as identifying (a) whether two
circles overlap; (b) whether two lines intersect; (c) which letter is being
circled in a word; and (d) counting the number of circles in a Olympic-like
logo. The shockingly poor performance of four state-of-the-art VLMs suggests
their vision is, at best, like of a person with myopia seeing fine details as
blurry, and at worst, like an intelligent person that is blind making educated
guesses. Code is available at: https://vlmsareblind.github.io/