Los modelos de lenguaje de visión son ciegos.
Vision language models are blind
July 9, 2024
Autores: Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen
cs.AI
Resumen
Los modelos de lenguaje grandes con capacidades de visión (VLMs), por ejemplo, GPT-4o y Gemini 1.5 Pro, están impulsando innumerables aplicaciones de imágenes y texto, y obteniendo altas puntuaciones en muchos benchmarks de comprensión visual. Sin embargo, encontramos que los VLMs fallan en 7 tareas visuales absurdamente fáciles para los humanos, como identificar (a) si dos círculos se superponen; (b) si dos líneas se intersectan; (c) qué letra está siendo rodeada en una palabra; y (d) contar el número de círculos en un logotipo similar al de los Juegos Olímpicos. El rendimiento sorprendentemente pobre de cuatro VLMs de última generación sugiere que su visión es, en el mejor de los casos, como la de una persona con miopía que ve los detalles finos borrosos, y en el peor de los casos, como la de una persona inteligente que está ciega y hace suposiciones educadas. El código está disponible en: https://vlmsareblind.github.io/
English
Large language models with vision capabilities (VLMs), e.g., GPT-4o and
Gemini 1.5 Pro are powering countless image-text applications and scoring high
on many vision-understanding benchmarks. Yet, we find that VLMs fail on 7
visual tasks absurdly easy to humans such as identifying (a) whether two
circles overlap; (b) whether two lines intersect; (c) which letter is being
circled in a word; and (d) counting the number of circles in a Olympic-like
logo. The shockingly poor performance of four state-of-the-art VLMs suggests
their vision is, at best, like of a person with myopia seeing fine details as
blurry, and at worst, like an intelligent person that is blind making educated
guesses. Code is available at: https://vlmsareblind.github.io/Summary
AI-Generated Summary