Visiontaalmodellen zijn blind.
Vision language models are blind
July 9, 2024
Auteurs: Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen
cs.AI
Samenvatting
Grote taalmodellen met visuele mogelijkheden (VLMs), zoals GPT-4o en Gemini 1.5 Pro, maken talloze beeld-teksttoepassingen mogelijk en scoren hoog op veel benchmarks voor visueel begrip. Toch ontdekken we dat VLMs falen op 7 visuele taken die voor mensen absurd eenvoudig zijn, zoals het identificeren van (a) of twee cirkels elkaar overlappen; (b) of twee lijnen elkaar snijden; (c) welke letter in een woord wordt omcirkeld; en (d) het tellen van het aantal cirkels in een logo dat lijkt op dat van de Olympische Spelen. De schokkend slechte prestaties van vier state-of-the-art VLMs suggereren dat hun visie, op zijn best, lijkt op die van een persoon met bijziendheid die fijne details wazig ziet, en op zijn slechtst, op een intelligente persoon die blind is en gefundeerde gokken maakt. Code is beschikbaar op: https://vlmsareblind.github.io/
English
Large language models with vision capabilities (VLMs), e.g., GPT-4o and
Gemini 1.5 Pro are powering countless image-text applications and scoring high
on many vision-understanding benchmarks. Yet, we find that VLMs fail on 7
visual tasks absurdly easy to humans such as identifying (a) whether two
circles overlap; (b) whether two lines intersect; (c) which letter is being
circled in a word; and (d) counting the number of circles in a Olympic-like
logo. The shockingly poor performance of four state-of-the-art VLMs suggests
their vision is, at best, like of a person with myopia seeing fine details as
blurry, and at worst, like an intelligent person that is blind making educated
guesses. Code is available at: https://vlmsareblind.github.io/