VisualOverload: Untersuchung des visuellen Verständnisses von VLMs in extrem dichten Szenen
VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes
September 29, 2025
papers.authors: Paul Gavrikov, Wei Lin, M. Jehanzeb Mirza, Soumya Jahagirdar, Muhammad Huzaifa, Sivan Doveh, Serena Yeung-Levy, James Glass, Hilde Kuehne
cs.AI
papers.abstract
Ist das grundlegende visuelle Verständnis in modernen visuell-sprachlichen Modellen (VLMs) wirklich gelöst? Wir präsentieren VisualOverload, einen leicht abweichenden Benchmark für visuelles Frage-Antworten (VQA), der 2.720 Frage-Antwort-Paare mit privat gehaltenen Ground-Truth-Antworten umfasst. Im Gegensatz zu früheren VQA-Datensätzen, die sich typischerweise auf ein nahezu globales Bildverständnis konzentrieren, fordert VisualOverload Modelle dazu heraus, einfache, wissensfreie visuelle Aufgaben in dicht bevölkerten (oder überladenen) Szenen zu bewältigen. Unser Datensatz besteht aus hochauflösenden Scans von gemeinfreien Gemälden, die mit zahlreichen Figuren, Handlungen und sich entfaltenden Nebenhandlungen vor detaillierten Hintergründen bevölkert sind. Wir haben diese Bilder manuell mit Fragen aus sechs Aufgabenkategorien annotiert, um ein umfassendes Verständnis der Szene zu testen. Wir vermuten, dass aktuelle Benchmarks die Leistung von VLMs überschätzen und dass die Kodierung und das Schlussfolgern über Details nach wie vor eine Herausforderung für sie darstellen, insbesondere wenn sie mit dicht bevölkerten Szenen konfrontiert werden. Tatsächlich beobachten wir, dass selbst das beste Modell (o3) von 37 getesteten Modellen nur eine Genauigkeit von 19,6 % auf unserem schwierigsten Test-Split und insgesamt 69,5 % Genauigkeit auf allen Fragen erreicht. Neben einer umfassenden Evaluation ergänzen wir unseren Benchmark mit einer Fehleranalyse, die mehrere Fehlermodi aufdeckt, darunter mangelnde Zählfähigkeiten, Versagen bei der optischen Zeichenerkennung (OCR) und auffällige logische Inkonsistenzen bei komplexen Aufgaben. Insgesamt deckt VisualOverload eine kritische Lücke in aktuellen Vision-Modellen auf und bietet der Community eine wichtige Ressource, um bessere Modelle zu entwickeln.
Benchmark: http://paulgavrikov.github.io/visualoverload
English
Is basic visual understanding really solved in state-of-the-art VLMs? We
present VisualOverload, a slightly different visual question answering (VQA)
benchmark comprising 2,720 question-answer pairs, with privately held
ground-truth responses. Unlike prior VQA datasets that typically focus on near
global image understanding, VisualOverload challenges models to perform simple,
knowledge-free vision tasks in densely populated (or, overloaded) scenes. Our
dataset consists of high-resolution scans of public-domain paintings that are
populated with multiple figures, actions, and unfolding subplots set against
elaborately detailed backdrops. We manually annotated these images with
questions across six task categories to probe for a thorough understanding of
the scene. We hypothesize that current benchmarks overestimate the performance
of VLMs, and encoding and reasoning over details is still a challenging task
for them, especially if they are confronted with densely populated scenes.
Indeed, we observe that even the best model (o3) out of 37 tested models only
achieves 19.6% accuracy on our hardest test split and overall 69.5% accuracy on
all questions. Beyond a thorough evaluation, we complement our benchmark with
an error analysis that reveals multiple failure modes, including a lack of
counting skills, failure in OCR, and striking logical inconsistencies under
complex tasks. Altogether, VisualOverload exposes a critical gap in current
vision models and offers a crucial resource for the community to develop better
models.
Benchmark: http://paulgavrikov.github.io/visualoverload