Sehen ist nicht Wissen: Wissen VLMs, wann sie räumliche Fragen nicht beantworten sollen (und warum)?

Zusammenfassung

Räumliches Denken ist eine grundlegende Fähigkeit für Sprachbildmodelle (Vision-Language Models, VLMs), die in realen Umgebungen eingesetzt werden. Allerdings sind visuelle Beobachtungen zwangsläufig begrenzte Repräsentationen einer 3D-Welt: Okklusion kann Objekte unsichtbar machen, und Perspektiven können geometrische Eigenschaften irreführend darstellen. Dennoch gehen bestehende Benchmarks zum räumlichen Denken typischerweise davon aus, dass Beobachtungen ausreichend und zuverlässig sind, und konzentrieren sich darauf, ob Modelle korrekte Antworten liefern, anstatt zu erkennen, wann eine Frage nicht beantwortet werden kann und welche zusätzlichen Beobachtungen erforderlich wären. In dieser Arbeit stellen wir diese Annahme infrage, indem wir einen kontrollierten Evaluierungsrahmen, SpatialUncertain, entwickeln und zwei Arten von Beobachtungsherausforderungen einführen: (1) Okklusion, die Zielinformationen verbirgt, und (2) Perspektivenambiguität, die irreführende visuelle Hinweise erzeugt. Für jede Konfiguration entwerfen wir räumliche Fragen, die unter klaren Beobachtungen beantwortbar sind, aber unter den eingeführten Herausforderungen eine Enthaltung erfordern. Zudem evaluieren wir, ob Modelle identifizieren können, welche zusätzlichen Blickwinkel die Perspektivenambiguität auflösen würden. Unsere Ergebnisse über eine vielfältige Auswahl führender quelloffener und geschlossener VLMs hinweg zeigen zwei durchgängige Fehlermodi. Erstens neigen Modelle zu übermäßig selbstbewusstem Antworten und versuchen, räumliche Denkaufgaben zu lösen, selbst wenn visuelle Evidenz unvollständig oder irreführend ist – mit einer durchschnittlichen Genauigkeit von etwa 30 % unter Okklusion und unter 10 % unter Perspektivenambiguität. Zweitens liegen einige Modelle selbst dann, wenn zusätzliche Ansichten verfügbar sind, nahe am Zufallsniveau, wenn es darum geht, zu identifizieren, welche davon zuverlässige Evidenz liefern würden. Zusammen genommen fordern unsere Ergebnisse dazu auf, über die reine Antwortkorrektheit hinauszugehen und stattdessen zu evaluieren, ob Modelle wissen, wann sie sich enthalten sollen und wie sie verlässliche Evidenz suchen können.

English

Spatial reasoning is a fundamental capability for vision-language models (VLMs) deployed in real-world environments. However, visual observations are inherently limited representations of a 3D world: occlusion can render objects invisible, and perspective can make geometric properties misleading. Despite this, existing spatial reasoning benchmarks typically assume that observations are sufficient and reliable, focusing on whether models produce correct answers rather than whether they recognize when a question cannot be answered and what additional observations would be needed. In this work, we challenge this assumption by constructing a controlled evaluation framework, SpatialUncertain, and introducing two types of observation challenges: (1) occlusion, which hides target information, and (2) perspective ambiguity, which produces misleading visual cues. For each configuration, we design spatial questions that are answerable under clean observations but require abstention under the introduced challenges. We further evaluate whether models can identify which additional viewpoints would resolve perspective ambiguity. Our results across a diverse set of frontier open- and closed-source VLMs reveal two consistent failure modes. First, models are prone to overconfident answering, attempting to solve spatial reasoning tasks even when visual evidence is incomplete or misleading, with average accuracy around 30\% under occlusion and below 10\% under perspective ambiguity. Second, even when additional views are available, some models perform near random chance in identifying which would provide reliable evidence. Together, our findings call for moving beyond answer correctness toward evaluating whether models know when to abstain and how to seek reliable evidence.