Ver no es saber: ¿Saben los VLM cuándo no responder a preguntas espaciales (y por qué)?

Resumen

El razonamiento espacial es una capacidad fundamental para los modelos de lenguaje visual (VLM) desplegados en entornos del mundo real. Sin embargo, las observaciones visuales son representaciones inherentemente limitadas del mundo tridimensional: la oclusión puede hacer invisibles a los objetos, y la perspectiva puede distorsionar las propiedades geométricas. A pesar de ello, los benchmarks existentes de razonamiento espacial suelen asumir que las observaciones son suficientes y fiables, centrándose en si los modelos producen respuestas correctas en lugar de evaluar si reconocen cuándo una pregunta no puede responderse y qué observaciones adicionales serían necesarias. En este trabajo, cuestionamos este supuesto mediante la construcción de un marco de evaluación controlado, SpatialUncertain, e introducimos dos tipos de desafíos observacionales: (1) oclusión, que oculta información objetivo, y (2) ambigüedad de perspectiva, que genera señales visuales engañosas. Para cada configuración, diseñamos preguntas espaciales que son respondibles bajo observaciones limpias, pero que requieren abstenerse bajo los desafíos introducidos. Además, evaluamos si los modelos pueden identificar qué puntos de vista adicionales resolverían la ambigüedad de perspectiva. Nuestros resultados, basados en un conjunto diverso de VLM pioneros de código abierto y cerrado, revelan dos modos de fallo consistentes. En primer lugar, los modelos tienden a responder con excesiva confianza, intentando resolver tareas de razonamiento espacial incluso cuando la evidencia visual es incompleta o engañosa, con una precisión promedio de alrededor del 30% bajo oclusión y por debajo del 10% bajo ambigüedad de perspectiva. En segundo lugar, incluso cuando hay vistas adicionales disponibles, algunos modelos se desempeñan cerca del azar al identificar cuáles proporcionarían evidencia fiable. En conjunto, nuestros hallazgos exigen ir más allá de la corrección de las respuestas, hacia la evaluación de si los modelos saben cuándo abstenerse y cómo buscar evidencia fiable.

English

Spatial reasoning is a fundamental capability for vision-language models (VLMs) deployed in real-world environments. However, visual observations are inherently limited representations of a 3D world: occlusion can render objects invisible, and perspective can make geometric properties misleading. Despite this, existing spatial reasoning benchmarks typically assume that observations are sufficient and reliable, focusing on whether models produce correct answers rather than whether they recognize when a question cannot be answered and what additional observations would be needed. In this work, we challenge this assumption by constructing a controlled evaluation framework, SpatialUncertain, and introducing two types of observation challenges: (1) occlusion, which hides target information, and (2) perspective ambiguity, which produces misleading visual cues. For each configuration, we design spatial questions that are answerable under clean observations but require abstention under the introduced challenges. We further evaluate whether models can identify which additional viewpoints would resolve perspective ambiguity. Our results across a diverse set of frontier open- and closed-source VLMs reveal two consistent failure modes. First, models are prone to overconfident answering, attempting to solve spatial reasoning tasks even when visual evidence is incomplete or misleading, with average accuracy around 30\% under occlusion and below 10\% under perspective ambiguity. Second, even when additional views are available, some models perform near random chance in identifying which would provide reliable evidence. Together, our findings call for moving beyond answer correctness toward evaluating whether models know when to abstain and how to seek reliable evidence.