Zien is niet weten: Weten VLMs wanneer ze geen ruimtelijke vragen moeten beantwoorden (en waarom)?

Samenvatting

Ruimtelijk redeneren is een fundamentele vaardigheid voor visie-taalmodellen (VLMs) die worden ingezet in reële omgevingen. Visuele waarnemingen zijn echter inherent beperkte representaties van een 3D-wereld: occlusie kan objecten onzichtbaar maken en perspectief kan geometrische eigenschappen misleidend doen lijken. Desondanks gaan bestaande benchmarks voor ruimtelijk redeneren er doorgaans van uit dat waarnemingen voldoende en betrouwbaar zijn, en richten ze zich op de vraag of modellen correcte antwoorden produceren, in plaats van of ze herkennen wanneer een vraag niet beantwoord kan worden en welke extra waarnemingen nodig zouden zijn. In dit werk dagen we deze aanname uit door een gecontroleerd evaluatiekader, SpatialUncertain, op te stellen en twee soorten waarnemingsuitdagingen te introduceren: (1) occlusie, die doelinformatie verbergt, en (2) perspectiefambiguïteit, die misleidende visuele aanwijzingen produceert. Voor elke configuratie ontwerpen we ruimtelijke vragen die beantwoordbaar zijn onder heldere waarnemingen, maar die onthouding vereisen onder de geïntroduceerde uitdagingen. Verder evalueren we of modellen kunnen identificeren welke extra gezichtspunten perspectiefambiguïteit zouden oplossen. Onze resultaten over een diverse reeks grensverleggende open- en closed-source VLMs laten twee consistente faalwijzen zien. Ten eerste hebben modellen de neiging overmoedig te antwoorden: ze proberen ruimtelijke redeneertaken op te lossen, zelfs wanneer visueel bewijs onvolledig of misleidend is, met een gemiddelde nauwkeurigheid rond de 30% bij occlusie en onder de 10% bij perspectiefambiguïteit. Ten tweede presteren sommige modellen, zelfs wanneer extra gezichtspunten beschikbaar zijn, rond het niveau van kans bij het identificeren welke daarvan betrouwbaar bewijs zouden leveren. Samen roepen onze bevindingen op om verder te kijken dan antwoordcorrectheid en te evalueren of modellen weten wanneer ze zich moeten onthouden en hoe ze betrouwbaar bewijs kunnen zoeken.

English

Spatial reasoning is a fundamental capability for vision-language models (VLMs) deployed in real-world environments. However, visual observations are inherently limited representations of a 3D world: occlusion can render objects invisible, and perspective can make geometric properties misleading. Despite this, existing spatial reasoning benchmarks typically assume that observations are sufficient and reliable, focusing on whether models produce correct answers rather than whether they recognize when a question cannot be answered and what additional observations would be needed. In this work, we challenge this assumption by constructing a controlled evaluation framework, SpatialUncertain, and introducing two types of observation challenges: (1) occlusion, which hides target information, and (2) perspective ambiguity, which produces misleading visual cues. For each configuration, we design spatial questions that are answerable under clean observations but require abstention under the introduced challenges. We further evaluate whether models can identify which additional viewpoints would resolve perspective ambiguity. Our results across a diverse set of frontier open- and closed-source VLMs reveal two consistent failure modes. First, models are prone to overconfident answering, attempting to solve spatial reasoning tasks even when visual evidence is incomplete or misleading, with average accuracy around 30\% under occlusion and below 10\% under perspective ambiguity. Second, even when additional views are available, some models perform near random chance in identifying which would provide reliable evidence. Together, our findings call for moving beyond answer correctness toward evaluating whether models know when to abstain and how to seek reliable evidence.