VisualOverload: Исследование визуального понимания моделей визуального языка в чрезвычайно насыщенных сценах
VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes
September 29, 2025
Авторы: Paul Gavrikov, Wei Lin, M. Jehanzeb Mirza, Soumya Jahagirdar, Muhammad Huzaifa, Sivan Doveh, Serena Yeung-Levy, James Glass, Hilde Kuehne
cs.AI
Аннотация
Решена ли базовая визуальная интерпретация в современных моделях визуального языка (VLMs)? Мы представляем VisualOverload — слегка отличающийся бенчмарк для визуального ответа на вопросы (VQA), состоящий из 2 720 пар вопрос-ответ с закрытыми эталонными ответами. В отличие от предыдущих наборов данных VQA, которые обычно сосредоточены на почти полном понимании изображения, VisualOverload бросает моделям вызов выполнять простые, не требующие знаний визуальные задачи в перегруженных сценах. Наш набор данных состоит из высококачественных сканирований картин из общественного достояния, насыщенных множеством фигур, действий и развивающихся сюжетов на фоне детализированных задних планов. Мы вручную аннотировали эти изображения вопросами из шести категорий задач, чтобы проверить глубокое понимание сцены. Мы предполагаем, что текущие бенчмарки переоценивают производительность VLMs, а кодирование и рассуждение над деталями по-прежнему остаются для них сложной задачей, особенно в перегруженных сценах. Действительно, мы наблюдаем, что даже лучшая модель (o3) из 37 протестированных достигает только 19,6% точности на самом сложном тестовом разделе и 69,5% точности на всех вопросах. Помимо тщательной оценки, мы дополняем наш бенчмарк анализом ошибок, который выявляет множество типов сбоев, включая отсутствие навыков счета, ошибки в распознавании текста (OCR) и поразительные логические несоответствия в сложных задачах. В целом, VisualOverload выявляет критический пробел в современных моделях зрения и предлагает важный ресурс для сообщества для разработки более совершенных моделей.
Бенчмарк: http://paulgavrikov.github.io/visualoverload
English
Is basic visual understanding really solved in state-of-the-art VLMs? We
present VisualOverload, a slightly different visual question answering (VQA)
benchmark comprising 2,720 question-answer pairs, with privately held
ground-truth responses. Unlike prior VQA datasets that typically focus on near
global image understanding, VisualOverload challenges models to perform simple,
knowledge-free vision tasks in densely populated (or, overloaded) scenes. Our
dataset consists of high-resolution scans of public-domain paintings that are
populated with multiple figures, actions, and unfolding subplots set against
elaborately detailed backdrops. We manually annotated these images with
questions across six task categories to probe for a thorough understanding of
the scene. We hypothesize that current benchmarks overestimate the performance
of VLMs, and encoding and reasoning over details is still a challenging task
for them, especially if they are confronted with densely populated scenes.
Indeed, we observe that even the best model (o3) out of 37 tested models only
achieves 19.6% accuracy on our hardest test split and overall 69.5% accuracy on
all questions. Beyond a thorough evaluation, we complement our benchmark with
an error analysis that reveals multiple failure modes, including a lack of
counting skills, failure in OCR, and striking logical inconsistencies under
complex tasks. Altogether, VisualOverload exposes a critical gap in current
vision models and offers a crucial resource for the community to develop better
models.
Benchmark: http://paulgavrikov.github.io/visualoverload