Ver não é saber: os VLMs sabem quando não responder a perguntas espaciais (e por quê)?

Resumo

O raciocínio espacial é uma capacidade fundamental para modelos de visão-linguagem (VLMs) implantados em ambientes do mundo real. No entanto, as observações visuais são representações intrinsecamente limitadas de um mundo tridimensional: a oclusão pode tornar objetos invisíveis, e a perspectiva pode tornar propriedades geométricas enganosas. Apesar disso, os benchmarks existentes de raciocínio espacial tipicamente assumem que as observações são suficientes e confiáveis, concentrando-se em saber se os modelos produzem respostas corretas, em vez de reconhecer quando uma pergunta não pode ser respondida e quais observações adicionais seriam necessárias. Neste trabalho, desafiamos essa premissa ao construir um quadro de avaliação controlado, o SpatialUncertain, e introduzir dois tipos de desafios observacionais: (1) oclusão, que oculta informações-alvo, e (2) ambiguidade de perspectiva, que produz pistas visuais enganosas. Para cada configuração, projetamos perguntas espaciais que são respondíveis sob observações limpas, mas exigem abstenção sob os desafios introduzidos. Além disso, avaliamos se os modelos conseguem identificar quais pontos de vista adicionais resolveriam a ambiguidade de perspectiva. Nossos resultados em um conjunto diversificado de VLMs de fronteira, de código aberto e fechado, revelam dois modos de falha consistentes. Primeiro, os modelos são propensos a respostas excessivamente confiantes, tentando resolver tarefas de raciocínio espacial mesmo quando as evidências visuais estão incompletas ou são enganosas, com precisão média em torno de 30% sob oclusão e abaixo de 10% sob ambiguidade de perspectiva. Segundo, mesmo quando vistas adicionais estão disponíveis, alguns modelos têm desempenho próximo ao acaso na identificação de quais forneceriam evidências confiáveis. Em conjunto, nossas descobertas pedem uma mudança além da correção das respostas, em direção à avaliação de se os modelos sabem quando se abster e como buscar evidências confiáveis.

English

Spatial reasoning is a fundamental capability for vision-language models (VLMs) deployed in real-world environments. However, visual observations are inherently limited representations of a 3D world: occlusion can render objects invisible, and perspective can make geometric properties misleading. Despite this, existing spatial reasoning benchmarks typically assume that observations are sufficient and reliable, focusing on whether models produce correct answers rather than whether they recognize when a question cannot be answered and what additional observations would be needed. In this work, we challenge this assumption by constructing a controlled evaluation framework, SpatialUncertain, and introducing two types of observation challenges: (1) occlusion, which hides target information, and (2) perspective ambiguity, which produces misleading visual cues. For each configuration, we design spatial questions that are answerable under clean observations but require abstention under the introduced challenges. We further evaluate whether models can identify which additional viewpoints would resolve perspective ambiguity. Our results across a diverse set of frontier open- and closed-source VLMs reveal two consistent failure modes. First, models are prone to overconfident answering, attempting to solve spatial reasoning tasks even when visual evidence is incomplete or misleading, with average accuracy around 30\% under occlusion and below 10\% under perspective ambiguity. Second, even when additional views are available, some models perform near random chance in identifying which would provide reliable evidence. Together, our findings call for moving beyond answer correctness toward evaluating whether models know when to abstain and how to seek reliable evidence.