VisualOverload: Explorando la Comprensión Visual de los Modelos de Lenguaje Visual en Escenas Extremadamente Densas
VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes
September 29, 2025
Autores: Paul Gavrikov, Wei Lin, M. Jehanzeb Mirza, Soumya Jahagirdar, Muhammad Huzaifa, Sivan Doveh, Serena Yeung-Levy, James Glass, Hilde Kuehne
cs.AI
Resumen
¿Está realmente resuelta la comprensión visual básica en los modelos de lenguaje visual (VLMs) de última generación? Presentamos VisualOverload, un benchmark de respuesta a preguntas visuales (VQA) ligeramente diferente que consta de 2.720 pares de preguntas-respuestas, con respuestas de referencia mantenidas en privado. A diferencia de los conjuntos de datos VQA anteriores que suelen centrarse en la comprensión casi global de la imagen, VisualOverload desafía a los modelos a realizar tareas visuales simples y libres de conocimiento en escenas densamente pobladas (o sobrecargadas). Nuestro conjunto de datos consiste en escaneos de alta resolución de pinturas de dominio público que están pobladas con múltiples figuras, acciones y subtramas en desarrollo, situadas sobre fondos detallados y elaborados. Anotamos manualmente estas imágenes con preguntas en seis categorías de tareas para sondear una comprensión exhaustiva de la escena. Nuestra hipótesis es que los benchmarks actuales sobreestiman el rendimiento de los VLMs, y que la codificación y el razonamiento sobre detalles sigue siendo una tarea desafiante para ellos, especialmente si se enfrentan a escenas densamente pobladas. De hecho, observamos que incluso el mejor modelo (o3) de los 37 modelos probados solo alcanza un 19,6% de precisión en nuestra división de prueba más difícil y un 69,5% de precisión general en todas las preguntas. Más allá de una evaluación exhaustiva, complementamos nuestro benchmark con un análisis de errores que revela múltiples modos de fallo, incluyendo la falta de habilidades de conteo, fallos en OCR y sorprendentes inconsistencias lógicas en tareas complejas. En conjunto, VisualOverload expone una brecha crítica en los modelos de visión actuales y ofrece un recurso crucial para que la comunidad desarrolle modelos mejores.
Benchmark: http://paulgavrikov.github.io/visualoverload
English
Is basic visual understanding really solved in state-of-the-art VLMs? We
present VisualOverload, a slightly different visual question answering (VQA)
benchmark comprising 2,720 question-answer pairs, with privately held
ground-truth responses. Unlike prior VQA datasets that typically focus on near
global image understanding, VisualOverload challenges models to perform simple,
knowledge-free vision tasks in densely populated (or, overloaded) scenes. Our
dataset consists of high-resolution scans of public-domain paintings that are
populated with multiple figures, actions, and unfolding subplots set against
elaborately detailed backdrops. We manually annotated these images with
questions across six task categories to probe for a thorough understanding of
the scene. We hypothesize that current benchmarks overestimate the performance
of VLMs, and encoding and reasoning over details is still a challenging task
for them, especially if they are confronted with densely populated scenes.
Indeed, we observe that even the best model (o3) out of 37 tested models only
achieves 19.6% accuracy on our hardest test split and overall 69.5% accuracy on
all questions. Beyond a thorough evaluation, we complement our benchmark with
an error analysis that reveals multiple failure modes, including a lack of
counting skills, failure in OCR, and striking logical inconsistencies under
complex tasks. Altogether, VisualOverload exposes a critical gap in current
vision models and offers a crucial resource for the community to develop better
models.
Benchmark: http://paulgavrikov.github.io/visualoverload