Los modelos de lenguaje de visión son ciegos.

Resumen

Los modelos de lenguaje grandes con capacidades de visión (VLMs), por ejemplo, GPT-4o y Gemini 1.5 Pro, están impulsando innumerables aplicaciones de imágenes y texto, y obteniendo altas puntuaciones en muchos benchmarks de comprensión visual. Sin embargo, encontramos que los VLMs fallan en 7 tareas visuales absurdamente fáciles para los humanos, como identificar (a) si dos círculos se superponen; (b) si dos líneas se intersectan; (c) qué letra está siendo rodeada en una palabra; y (d) contar el número de círculos en un logotipo similar al de los Juegos Olímpicos. El rendimiento sorprendentemente pobre de cuatro VLMs de última generación sugiere que su visión es, en el mejor de los casos, como la de una persona con miopía que ve los detalles finos borrosos, y en el peor de los casos, como la de una persona inteligente que está ciega y hace suposiciones educadas. El código está disponible en: https://vlmsareblind.github.io/

English

Large language models with vision capabilities (VLMs), e.g., GPT-4o and Gemini 1.5 Pro are powering countless image-text applications and scoring high on many vision-understanding benchmarks. Yet, we find that VLMs fail on 7 visual tasks absurdly easy to humans such as identifying (a) whether two circles overlap; (b) whether two lines intersect; (c) which letter is being circled in a word; and (d) counting the number of circles in a Olympic-like logo. The shockingly poor performance of four state-of-the-art VLMs suggests their vision is, at best, like of a person with myopia seeing fine details as blurry, and at worst, like an intelligent person that is blind making educated guesses. Code is available at: https://vlmsareblind.github.io/

Los modelos de lenguaje de visión son ciegos.

Vision language models are blind

Resumen

Support