VisualOverload: Esplorazione della Comprensione Visiva dei Modelli Linguistici Visivi in Scene Estremamente Dense
VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes
September 29, 2025
Autori: Paul Gavrikov, Wei Lin, M. Jehanzeb Mirza, Soumya Jahagirdar, Muhammad Huzaifa, Sivan Doveh, Serena Yeung-Levy, James Glass, Hilde Kuehne
cs.AI
Abstract
La comprensione visiva di base è davvero risolta nei modelli linguistici visivi (VLMs) all'avanguardia? Presentiamo VisualOverload, un benchmark leggermente diverso per il task di risposta a domande visive (VQA), composto da 2.720 coppie domanda-risposta, con risposte di riferimento mantenute private. A differenza dei precedenti dataset VQA che tipicamente si concentrano su una comprensione quasi globale dell'immagine, VisualOverload mette alla prova i modelli nell'esecuzione di semplici task visivi, privi di conoscenza contestuale, in scene densamente popolate (o "sovraccariche"). Il nostro dataset è costituito da scansioni ad alta risoluzione di dipinti di dominio pubblico, popolati da molteplici figure, azioni e sottotrame in sviluppo, ambientati su sfondi elaborati e dettagliati. Abbiamo annotato manualmente queste immagini con domande appartenenti a sei categorie di task, per sondare una comprensione approfondita della scena. Ipotesizziamo che i benchmark attuali sovrastimino le prestazioni dei VLMs, e che la codifica e il ragionamento sui dettagli rimangano un compito impegnativo per questi modelli, specialmente quando si confrontano con scene densamente popolate. Infatti, osserviamo che anche il miglior modello (o3) tra i 37 testati raggiunge solo il 19,6% di accuratezza sul nostro test split più difficile e un'accuratezza complessiva del 69,5% su tutte le domande. Oltre a una valutazione approfondita, integriamo il nostro benchmark con un'analisi degli errori che rivela molteplici modalità di fallimento, tra cui una carenza nelle abilità di conteggio, errori nel riconoscimento ottico dei caratteri (OCR) e sorprendenti incongruenze logiche in task complessi. Nel complesso, VisualOverload mette in luce una lacuna critica nei modelli visivi attuali e offre una risorsa cruciale per la comunità per sviluppare modelli migliori.
Benchmark: http://paulgavrikov.github.io/visualoverload
English
Is basic visual understanding really solved in state-of-the-art VLMs? We
present VisualOverload, a slightly different visual question answering (VQA)
benchmark comprising 2,720 question-answer pairs, with privately held
ground-truth responses. Unlike prior VQA datasets that typically focus on near
global image understanding, VisualOverload challenges models to perform simple,
knowledge-free vision tasks in densely populated (or, overloaded) scenes. Our
dataset consists of high-resolution scans of public-domain paintings that are
populated with multiple figures, actions, and unfolding subplots set against
elaborately detailed backdrops. We manually annotated these images with
questions across six task categories to probe for a thorough understanding of
the scene. We hypothesize that current benchmarks overestimate the performance
of VLMs, and encoding and reasoning over details is still a challenging task
for them, especially if they are confronted with densely populated scenes.
Indeed, we observe that even the best model (o3) out of 37 tested models only
achieves 19.6% accuracy on our hardest test split and overall 69.5% accuracy on
all questions. Beyond a thorough evaluation, we complement our benchmark with
an error analysis that reveals multiple failure modes, including a lack of
counting skills, failure in OCR, and striking logical inconsistencies under
complex tasks. Altogether, VisualOverload exposes a critical gap in current
vision models and offers a crucial resource for the community to develop better
models.
Benchmark: http://paulgavrikov.github.io/visualoverload