VisualOverload: Investigando a Compreensão Visual de VLMs em Cenas Realmente Densas
VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes
September 29, 2025
Autores: Paul Gavrikov, Wei Lin, M. Jehanzeb Mirza, Soumya Jahagirdar, Muhammad Huzaifa, Sivan Doveh, Serena Yeung-Levy, James Glass, Hilde Kuehne
cs.AI
Resumo
A compreensão visual básica está realmente resolvida nos modelos de linguagem visual (VLMs) de última geração? Apresentamos o VisualOverload, um benchmark de resposta a perguntas visuais (VQA) ligeiramente diferente, composto por 2.720 pares de perguntas e respostas, com respostas verdadeiras mantidas em privado. Ao contrário dos conjuntos de dados VQA anteriores, que normalmente se concentram em uma compreensão quase global da imagem, o VisualOverload desafia os modelos a realizar tarefas visuais simples e livres de conhecimento em cenas densamente povoadas (ou sobrecarregadas). Nosso conjunto de dados consiste em digitalizações de alta resolução de pinturas de domínio público que são povoadas com múltiplas figuras, ações e subtramas em desenvolvimento, definidas contra cenários elaboradamente detalhados. Anotamos manualmente essas imagens com perguntas em seis categorias de tarefas para investigar uma compreensão profunda da cena. Nossa hipótese é que os benchmarks atuais superestimam o desempenho dos VLMs, e a codificação e o raciocínio sobre detalhes ainda são tarefas desafiadoras para eles, especialmente quando confrontados com cenas densamente povoadas. De fato, observamos que mesmo o melhor modelo (o3) entre os 37 modelos testados alcança apenas 19,6% de precisão em nosso conjunto de teste mais difícil e 69,5% de precisão geral em todas as perguntas. Além de uma avaliação detalhada, complementamos nosso benchmark com uma análise de erros que revela múltiplos modos de falha, incluindo falta de habilidades de contagem, falhas em OCR e inconsistências lógicas marcantes em tarefas complexas. No geral, o VisualOverload expõe uma lacuna crítica nos modelos de visão atuais e oferece um recurso crucial para a comunidade desenvolver modelos melhores.
Benchmark: http://paulgavrikov.github.io/visualoverload
English
Is basic visual understanding really solved in state-of-the-art VLMs? We
present VisualOverload, a slightly different visual question answering (VQA)
benchmark comprising 2,720 question-answer pairs, with privately held
ground-truth responses. Unlike prior VQA datasets that typically focus on near
global image understanding, VisualOverload challenges models to perform simple,
knowledge-free vision tasks in densely populated (or, overloaded) scenes. Our
dataset consists of high-resolution scans of public-domain paintings that are
populated with multiple figures, actions, and unfolding subplots set against
elaborately detailed backdrops. We manually annotated these images with
questions across six task categories to probe for a thorough understanding of
the scene. We hypothesize that current benchmarks overestimate the performance
of VLMs, and encoding and reasoning over details is still a challenging task
for them, especially if they are confronted with densely populated scenes.
Indeed, we observe that even the best model (o3) out of 37 tested models only
achieves 19.6% accuracy on our hardest test split and overall 69.5% accuracy on
all questions. Beyond a thorough evaluation, we complement our benchmark with
an error analysis that reveals multiple failure modes, including a lack of
counting skills, failure in OCR, and striking logical inconsistencies under
complex tasks. Altogether, VisualOverload exposes a critical gap in current
vision models and offers a crucial resource for the community to develop better
models.
Benchmark: http://paulgavrikov.github.io/visualoverload