I modelli linguistici visivi sono ciechi.
Vision language models are blind
July 9, 2024
Autori: Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen
cs.AI
Abstract
I modelli linguistici di grandi dimensioni con capacità visive (VLMs), come GPT-4o e Gemini 1.5 Pro, stanno alimentando innumerevoli applicazioni che combinano immagini e testo e ottengono punteggi elevati in molti benchmark di comprensione visiva. Tuttavia, abbiamo riscontrato che i VLMs falliscono in 7 compiti visivi che per gli esseri umani sono assurdamente semplici, come identificare (a) se due cerchi si sovrappongono; (b) se due linee si intersecano; (c) quale lettera viene cerchiata in una parola; e (d) contare il numero di cerchi in un logo simile a quello olimpico. La performance sorprendentemente scarsa di quattro VLMs all'avanguardia suggerisce che la loro visione è, nel migliore dei casi, simile a quella di una persona miope che vede i dettagli fini come sfocati, e nel peggiore dei casi, simile a quella di una persona intelligente ma cieca che fa ipotesi basate su deduzioni. Il codice è disponibile all'indirizzo: https://vlmsareblind.github.io/
English
Large language models with vision capabilities (VLMs), e.g., GPT-4o and
Gemini 1.5 Pro are powering countless image-text applications and scoring high
on many vision-understanding benchmarks. Yet, we find that VLMs fail on 7
visual tasks absurdly easy to humans such as identifying (a) whether two
circles overlap; (b) whether two lines intersect; (c) which letter is being
circled in a word; and (d) counting the number of circles in a Olympic-like
logo. The shockingly poor performance of four state-of-the-art VLMs suggests
their vision is, at best, like of a person with myopia seeing fine details as
blurry, and at worst, like an intelligent person that is blind making educated
guesses. Code is available at: https://vlmsareblind.github.io/