VisualOverload: Onderzoek naar visueel begrip van VLMs in extreem dichte scènes
VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes
September 29, 2025
Auteurs: Paul Gavrikov, Wei Lin, M. Jehanzeb Mirza, Soumya Jahagirdar, Muhammad Huzaifa, Sivan Doveh, Serena Yeung-Levy, James Glass, Hilde Kuehne
cs.AI
Samenvatting
Is het basisvisuele begrip echt opgelost in state-of-the-art visuele taalmodellen (VLMs)? Wij presenteren VisualOverload, een iets andere benchmark voor visuele vraagbeantwoording (VQA) die bestaat uit 2.720 vraag-antwoordparen, met privé bewaarde grondwaarheid-antwoorden. In tegenstelling tot eerdere VQA-datasets die zich doorgaans richten op bijna globaal beeldbegrip, daagt VisualOverload modellen uit om eenvoudige, kennisvrije visuele taken uit te voeren in dichtbevolkte (of overbelaste) scènes. Onze dataset bestaat uit hoogwaardige scans van publiek domein schilderijen die gevuld zijn met meerdere figuren, acties en ontvouwend subplots tegen uitgebreid gedetailleerde achtergronden. We hebben deze afbeeldingen handmatig geannoteerd met vragen over zes taakcategorieën om een grondig begrip van de scène te onderzoeken. We veronderstellen dat huidige benchmarks de prestaties van VLMs overschatten, en het coderen en redeneren over details blijft een uitdagende taak voor hen, vooral als ze worden geconfronteerd met dichtbevolkte scènes. Inderdaad, we observeren dat zelfs het beste model (o3) van de 37 geteste modellen slechts 19,6% nauwkeurigheid behaalt op onze moeilijkste testset en in totaal 69,5% nauwkeurigheid op alle vragen. Naast een grondige evaluatie, vullen we onze benchmark aan met een foutenanalyse die meerdere faalmodi onthult, waaronder een gebrek aan telvaardigheden, falen in OCR en opvallende logische inconsistenties onder complexe taken. Al met al legt VisualOverload een kritieke kloof bloot in huidige visuele modellen en biedt het een cruciale bron voor de gemeenschap om betere modellen te ontwikkelen.
Benchmark: http://paulgavrikov.github.io/visualoverload
English
Is basic visual understanding really solved in state-of-the-art VLMs? We
present VisualOverload, a slightly different visual question answering (VQA)
benchmark comprising 2,720 question-answer pairs, with privately held
ground-truth responses. Unlike prior VQA datasets that typically focus on near
global image understanding, VisualOverload challenges models to perform simple,
knowledge-free vision tasks in densely populated (or, overloaded) scenes. Our
dataset consists of high-resolution scans of public-domain paintings that are
populated with multiple figures, actions, and unfolding subplots set against
elaborately detailed backdrops. We manually annotated these images with
questions across six task categories to probe for a thorough understanding of
the scene. We hypothesize that current benchmarks overestimate the performance
of VLMs, and encoding and reasoning over details is still a challenging task
for them, especially if they are confronted with densely populated scenes.
Indeed, we observe that even the best model (o3) out of 37 tested models only
achieves 19.6% accuracy on our hardest test split and overall 69.5% accuracy on
all questions. Beyond a thorough evaluation, we complement our benchmark with
an error analysis that reveals multiple failure modes, including a lack of
counting skills, failure in OCR, and striking logical inconsistencies under
complex tasks. Altogether, VisualOverload exposes a critical gap in current
vision models and offers a crucial resource for the community to develop better
models.
Benchmark: http://paulgavrikov.github.io/visualoverload