Les modèles de langage visuel sont aveugles.
Vision language models are blind
July 9, 2024
Auteurs: Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen
cs.AI
Résumé
Les grands modèles de langage dotés de capacités visuelles (VLMs), tels que GPT-4o et Gemini 1.5 Pro, alimentent d'innombrables applications combinant texte et image et obtiennent des scores élevés sur de nombreux benchmarks de compréhension visuelle. Pourtant, nous constatons que les VLMs échouent sur 7 tâches visuelles absurdement simples pour les humains, telles que : (a) déterminer si deux cercles se chevauchent ; (b) vérifier si deux lignes se croisent ; (c) identifier quelle lettre est entourée dans un mot ; et (d) compter le nombre de cercles dans un logo de type olympique. La performance étonnamment faible de quatre VLMs de pointe suggère que leur vision est, au mieux, comparable à celle d'une personne myope percevant les détails fins comme flous, et au pire, à celle d'une personne intelligente mais aveugle faisant des suppositions éclairées. Le code est disponible à l'adresse : https://vlmsareblind.github.io/
English
Large language models with vision capabilities (VLMs), e.g., GPT-4o and
Gemini 1.5 Pro are powering countless image-text applications and scoring high
on many vision-understanding benchmarks. Yet, we find that VLMs fail on 7
visual tasks absurdly easy to humans such as identifying (a) whether two
circles overlap; (b) whether two lines intersect; (c) which letter is being
circled in a word; and (d) counting the number of circles in a Olympic-like
logo. The shockingly poor performance of four state-of-the-art VLMs suggests
their vision is, at best, like of a person with myopia seeing fine details as
blurry, and at worst, like an intelligent person that is blind making educated
guesses. Code is available at: https://vlmsareblind.github.io/Summary
AI-Generated Summary