Sprachmodelle für die Bildverarbeitung sind blind.

papers.abstract

Große Sprachmodelle mit Sehfähigkeiten (VLMs), z. B. GPT-4o und Gemini 1.5 Pro, treiben unzählige Bild-Text-Anwendungen an und erzielen hohe Punktzahlen in vielen Bildverstehens-Benchmarks. Dennoch stellen wir fest, dass VLMs bei 7 visuellen Aufgaben kläglich versagen, die für Menschen absurd einfach sind, wie z. B. (a) festzustellen, ob sich zwei Kreise überschneiden; (b) ob sich zwei Linien schneiden; (c) welcher Buchstabe in einem Wort umkreist ist; und (d) die Anzahl der Kreise in einem olympischen Logo zu zählen. Die schockierend schlechte Leistung der vier hochmodernen VLMs legt nahe, dass ihr Sehvermögen bestenfalls dem einer Person mit Kurzsichtigkeit ähnelt, die feine Details verschwommen sieht, und im schlimmsten Fall dem einer intelligenten Person, die blind ist und fundierte Vermutungen anstellt. Der Code ist verfügbar unter: https://vlmsareblind.github.io/

English

Large language models with vision capabilities (VLMs), e.g., GPT-4o and Gemini 1.5 Pro are powering countless image-text applications and scoring high on many vision-understanding benchmarks. Yet, we find that VLMs fail on 7 visual tasks absurdly easy to humans such as identifying (a) whether two circles overlap; (b) whether two lines intersect; (c) which letter is being circled in a word; and (d) counting the number of circles in a Olympic-like logo. The shockingly poor performance of four state-of-the-art VLMs suggests their vision is, at best, like of a person with myopia seeing fine details as blurry, and at worst, like an intelligent person that is blind making educated guesses. Code is available at: https://vlmsareblind.github.io/

Sprachmodelle für die Bildverarbeitung sind blind.

Vision language models are blind

papers.abstract

Support