Видеть не значит знать: Знают ли VLM, когда не следует отвечать на пространственные вопросы (и почему)?

Аннотация

Пространственное рассуждение является фундаментальной способностью для моделей зрения и языка (VLM), применяемых в реальных средах. Однако визуальные наблюдения по своей сути являются ограниченными представлениями трёхмерного мира: окклюзия может делать объекты невидимыми, а перспектива — искажать геометрические свойства. Несмотря на это, существующие бенчмарки пространственного рассуждения обычно предполагают, что наблюдения достаточны и надёжны, сосредотачиваясь на том, дают ли модели правильные ответы, а не на том, осознают ли они, когда на вопрос невозможно ответить и какие дополнительные наблюдения потребуются. В данной работе мы оспариваем это предположение, создавая контролируемую оценочную среду SpatialUncertain и вводя два типа проблем с наблюдениями: (1) окклюзию, которая скрывает целевую информацию, и (2) перспективную неоднозначность, порождающую вводящие в заблуждение визуальные сигналы. Для каждой конфигурации мы разрабатываем пространственные вопросы, на которые можно ответить при чистых наблюдениях, но которые требуют воздержания от ответа при введённых проблемах. Далее мы оцениваем, могут ли модели определить, какие дополнительные точки обзора разрешили бы перспективную неоднозначность. Наши результаты на разнообразном наборе передовых открытых и закрытых VLM выявляют два последовательных типа сбоев. Во-первых, модели склонны к излишне уверенным ответам, пытаясь решить задачи пространственного рассуждения даже при неполных или вводящих в заблуждение визуальных данных, со средней точностью около 30% в условиях окклюзии и ниже 10% в условиях перспективной неоднозначности. Во-вторых, даже при наличии дополнительных видов некоторые модели работают на уровне случайного угадывания при определении того, какой из них предоставит надёжные доказательства. В совокупности наши результаты призывают выйти за рамки правильности ответов и перейти к оценке того, знают ли модели, когда следует воздержаться и как искать надёжные доказательства.

English

Spatial reasoning is a fundamental capability for vision-language models (VLMs) deployed in real-world environments. However, visual observations are inherently limited representations of a 3D world: occlusion can render objects invisible, and perspective can make geometric properties misleading. Despite this, existing spatial reasoning benchmarks typically assume that observations are sufficient and reliable, focusing on whether models produce correct answers rather than whether they recognize when a question cannot be answered and what additional observations would be needed. In this work, we challenge this assumption by constructing a controlled evaluation framework, SpatialUncertain, and introducing two types of observation challenges: (1) occlusion, which hides target information, and (2) perspective ambiguity, which produces misleading visual cues. For each configuration, we design spatial questions that are answerable under clean observations but require abstention under the introduced challenges. We further evaluate whether models can identify which additional viewpoints would resolve perspective ambiguity. Our results across a diverse set of frontier open- and closed-source VLMs reveal two consistent failure modes. First, models are prone to overconfident answering, attempting to solve spatial reasoning tasks even when visual evidence is incomplete or misleading, with average accuracy around 30\% under occlusion and below 10\% under perspective ambiguity. Second, even when additional views are available, some models perform near random chance in identifying which would provide reliable evidence. Together, our findings call for moving beyond answer correctness toward evaluating whether models know when to abstain and how to seek reliable evidence.