Sprachmodelle für die Bildverarbeitung sind blind.
Vision language models are blind
July 9, 2024
Autoren: Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen
cs.AI
Zusammenfassung
Große Sprachmodelle mit Sehfähigkeiten (VLMs), z. B. GPT-4o und Gemini 1.5 Pro, treiben unzählige Bild-Text-Anwendungen an und erzielen hohe Punktzahlen in vielen Bildverstehens-Benchmarks. Dennoch stellen wir fest, dass VLMs bei 7 visuellen Aufgaben kläglich versagen, die für Menschen absurd einfach sind, wie z. B. (a) festzustellen, ob sich zwei Kreise überschneiden; (b) ob sich zwei Linien schneiden; (c) welcher Buchstabe in einem Wort umkreist ist; und (d) die Anzahl der Kreise in einem olympischen Logo zu zählen. Die schockierend schlechte Leistung der vier hochmodernen VLMs legt nahe, dass ihr Sehvermögen bestenfalls dem einer Person mit Kurzsichtigkeit ähnelt, die feine Details verschwommen sieht, und im schlimmsten Fall dem einer intelligenten Person, die blind ist und fundierte Vermutungen anstellt. Der Code ist verfügbar unter: https://vlmsareblind.github.io/
English
Large language models with vision capabilities (VLMs), e.g., GPT-4o and
Gemini 1.5 Pro are powering countless image-text applications and scoring high
on many vision-understanding benchmarks. Yet, we find that VLMs fail on 7
visual tasks absurdly easy to humans such as identifying (a) whether two
circles overlap; (b) whether two lines intersect; (c) which letter is being
circled in a word; and (d) counting the number of circles in a Olympic-like
logo. The shockingly poor performance of four state-of-the-art VLMs suggests
their vision is, at best, like of a person with myopia seeing fine details as
blurry, and at worst, like an intelligent person that is blind making educated
guesses. Code is available at: https://vlmsareblind.github.io/Summary
AI-Generated Summary