Voir n'est pas savoir : Les VLM savent-ils quand ne pas répondre aux questions spatiales (et pourquoi) ?

Résumé

Le raisonnement spatial est une capacité fondamentale pour les modèles vision-langage (VLM) déployés dans des environnements réels. Cependant, les observations visuelles constituent des représentations intrinsèquement limitées d'un monde en trois dimensions : l'occlusion peut rendre des objets invisibles, et la perspective peut fausser les propriétés géométriques. Malgré cela, les benchmarks existants de raisonnement spatial supposent généralement que les observations sont suffisantes et fiables, se concentrant sur la capacité des modèles à produire des réponses correctes plutôt que sur leur aptitude à reconnaître quand une question ne peut être répondue et quelles observations supplémentaires seraient nécessaires. Dans ce travail, nous remettons en question cette hypothèse en construisant un cadre d'évaluation contrôlé, SpatialUncertain, et en introduisant deux types de défis liés aux observations : (1) l'occlusion, qui masque les informations cibles, et (2) l'ambiguïté de perspective, qui produit des indices visuels trompeurs. Pour chaque configuration, nous concevons des questions spatiales qui sont répondables avec des observations claires mais qui nécessitent une abstention face aux défis introduits. Nous évaluons également si les modèles peuvent identifier les points de vue supplémentaires qui résoudraient l'ambiguïté de perspective. Nos résultats, obtenus sur un ensemble diversifié de VLM de pointe, qu'ils soient ouverts ou propriétaires, révèlent deux modes d'échec récurrents. Premièrement, les modèles ont tendance à répondre avec une confiance excessive, tentant de résoudre des tâches de raisonnement spatial même lorsque les preuves visuelles sont incomplètes ou trompeuses, avec une précision moyenne d'environ 30 % en cas d'occlusion et inférieure à 10 % en cas d'ambiguïté de perspective. Deuxièmement, même lorsque des vues supplémentaires sont disponibles, certains modèles obtiennent des résultats proches du hasard pour identifier celles qui fourniraient des preuves fiables. Ensemble, nos résultats appellent à dépasser la simple exactitude des réponses pour évaluer si les modèles savent quand s'abstenir et comment rechercher des preuves fiables.

English

Spatial reasoning is a fundamental capability for vision-language models (VLMs) deployed in real-world environments. However, visual observations are inherently limited representations of a 3D world: occlusion can render objects invisible, and perspective can make geometric properties misleading. Despite this, existing spatial reasoning benchmarks typically assume that observations are sufficient and reliable, focusing on whether models produce correct answers rather than whether they recognize when a question cannot be answered and what additional observations would be needed. In this work, we challenge this assumption by constructing a controlled evaluation framework, SpatialUncertain, and introducing two types of observation challenges: (1) occlusion, which hides target information, and (2) perspective ambiguity, which produces misleading visual cues. For each configuration, we design spatial questions that are answerable under clean observations but require abstention under the introduced challenges. We further evaluate whether models can identify which additional viewpoints would resolve perspective ambiguity. Our results across a diverse set of frontier open- and closed-source VLMs reveal two consistent failure modes. First, models are prone to overconfident answering, attempting to solve spatial reasoning tasks even when visual evidence is incomplete or misleading, with average accuracy around 30\% under occlusion and below 10\% under perspective ambiguity. Second, even when additional views are available, some models perform near random chance in identifying which would provide reliable evidence. Together, our findings call for moving beyond answer correctness toward evaluating whether models know when to abstain and how to seek reliable evidence.