Почему «далёкое» смотрит вверх: зондирование пространственной репрезентации в визуально-языковых моделях

Аннотация

Зрительно-языковые модели (VLM) демонстрируют высокую производительность на тестах пространственного мышления, однако до сих пор неясно, отражает ли это структурированное трёхмерное понимание или опору на статистические сокращения (shortcuts) в естественных изображениях. Мы представляем фреймворк для анализа на уровне представлений, который строит минимальные контрастные пары для измерения того, как пространственные оси организованы и разделены (disentangled) во вложениях VLM. Наш анализ по нескольким семействам моделей выявляет устойчивую вертикально-дистанционную запутанность: модели смешивают вертикальное положение в изображении с расстоянием, отражая перспективное смещение естественных фотографий. Это смещение порождает значительный разрыв в точности между примерами, согласующимися с перспективой и противоречащими эвристике, и усиливается при масштабировании данных, даже если общая точность бенчмарка улучшается. Кроме того, мы показываем, что модели с одинаковыми оценками на тестах могут демонстрировать различные внутренние представления, и что эти различия предсказывают точность и устойчивость в различных тестах пространственного мышления. Чтобы изолировать это смещение от смещения набора оценки, мы представляем SpatialTunnel — синтетический бенчмарк, предназначенный для выявления смещений пространственных shortcut путём удаления распространённых корреляций, присутствующих в естественных изображениях. Эксперименты подтверждают, что запутанность присуща самой модели, и что модели с хорошо разделёнными пространственными осями проявляют большую устойчивость, что позволяет предположить, что хорошо структурированные пространственные представления приводят к более надёжному пространственному мышлению в различных тестах. Код и бенчмарк доступны на странице проекта: https://cheolhong0916.github.io/whyfarlooksup.github.io/.

English

Vision-language models (VLMs) achieve strong performance on spatial reasoning benchmarks, yet it remains unclear whether this reflects structured 3D understanding or reliance on statistical shortcuts in natural images. We introduce a representation-level analysis framework that constructs minimal contrastive pairs to measure how spatial axes are organized and disentangled within VLM embeddings. Our analysis across multiple model families reveals a consistent vertical-distance entanglement: models conflate vertical image position with distance, mirroring the perspective bias of natural photographs. This bias produces a significant accuracy gap between perspective-consistent and counter-heuristic examples, and intensifies under data scaling even as overall benchmark accuracy improves. We further show that models with similar benchmark scores can exhibit different internal representations, and that these differences predict accuracy and robustness across diverse spatial reasoning benchmarks. To isolate this bias from evaluation-set skew, we introduce SpatialTunnel, a synthetic benchmark designed to expose spatial shortcut biases by removing common correlations present in natural images. Experiments confirm that the entanglement is model-intrinsic, and that models with well-separated spatial axes exhibit greater robustness, suggesting that well-structured spatial representations lead to more reliable spatial reasoning across diverse benchmarks. Code and benchmark are available on the project page: https://cheolhong0916.github.io/whyfarlooksup.github.io/.