VisualOverload : Exploration de la compréhension visuelle des modèles de langage visuel dans des scènes extrêmement denses
VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes
September 29, 2025
papers.authors: Paul Gavrikov, Wei Lin, M. Jehanzeb Mirza, Soumya Jahagirdar, Muhammad Huzaifa, Sivan Doveh, Serena Yeung-Levy, James Glass, Hilde Kuehne
cs.AI
papers.abstract
La compréhension visuelle de base est-elle vraiment résolue dans les modèles de langage visuel (VLMs) de pointe ? Nous présentons VisualOverload, un benchmark légèrement différent pour la tâche de question-réponse visuelle (VQA), comprenant 2 720 paires de questions-réponses avec des réponses de référence tenues privées. Contrairement aux précédents ensembles de données VQA qui se concentrent généralement sur une compréhension quasi globale de l'image, VisualOverload met les modèles au défi d'effectuer des tâches visuelles simples, sans recours à des connaissances préalables, dans des scènes densément peuplées (ou surchargées). Notre ensemble de données est constitué de scans haute résolution de peintures du domaine public, remplies de multiples personnages, actions et sous-intrigues se déroulant sur des arrière-plans richement détaillés. Nous avons annoté manuellement ces images avec des questions réparties en six catégories de tâches pour tester une compréhension approfondie de la scène. Nous émettons l'hypothèse que les benchmarks actuels surestiment les performances des VLMs, et que l'encodage et le raisonnement sur les détails restent une tâche difficile pour eux, en particulier lorsqu'ils sont confrontés à des scènes densément peuplées. En effet, nous observons que même le meilleur modèle (o3) parmi les 37 modèles testés n'atteint que 19,6 % de précision sur notre partition de test la plus difficile et 69,5 % de précision globale sur toutes les questions. Au-delà d'une évaluation approfondie, nous complétons notre benchmark par une analyse des erreurs qui révèle plusieurs modes d'échec, notamment un manque de compétences en comptage, des échecs dans la reconnaissance optique de caractères (OCR) et des incohérences logiques frappantes dans des tâches complexes. En somme, VisualOverload expose un écart critique dans les modèles de vision actuels et offre une ressource cruciale pour la communauté afin de développer de meilleurs modèles.
Benchmark : http://paulgavrikov.github.io/visualoverload
English
Is basic visual understanding really solved in state-of-the-art VLMs? We
present VisualOverload, a slightly different visual question answering (VQA)
benchmark comprising 2,720 question-answer pairs, with privately held
ground-truth responses. Unlike prior VQA datasets that typically focus on near
global image understanding, VisualOverload challenges models to perform simple,
knowledge-free vision tasks in densely populated (or, overloaded) scenes. Our
dataset consists of high-resolution scans of public-domain paintings that are
populated with multiple figures, actions, and unfolding subplots set against
elaborately detailed backdrops. We manually annotated these images with
questions across six task categories to probe for a thorough understanding of
the scene. We hypothesize that current benchmarks overestimate the performance
of VLMs, and encoding and reasoning over details is still a challenging task
for them, especially if they are confronted with densely populated scenes.
Indeed, we observe that even the best model (o3) out of 37 tested models only
achieves 19.6% accuracy on our hardest test split and overall 69.5% accuracy on
all questions. Beyond a thorough evaluation, we complement our benchmark with
an error analysis that reveals multiple failure modes, including a lack of
counting skills, failure in OCR, and striking logical inconsistencies under
complex tasks. Altogether, VisualOverload exposes a critical gap in current
vision models and offers a crucial resource for the community to develop better
models.
Benchmark: http://paulgavrikov.github.io/visualoverload