Por que o Distante Parece Acima: Investigando a Representação Espacial em Modelos de Visão-Linguagem

Resumo

Modelos de visão-linguagem (VLMs) alcançam desempenho robusto em benchmarks de raciocínio espacial, embora permaneça incerto se isso reflete uma compreensão 3D estruturada ou dependência de atalhos estatísticos em imagens naturais. Apresentamos uma estrutura de análise a nível de representação que constrói pares contrastivos mínimos para medir como os eixos espaciais são organizados e desembaraçados dentro dos embeddings dos VLMs. Nossa análise em múltiplas famílias de modelos revela um consistente emaranhamento vertical-distância: os modelos confundem a posição vertical da imagem com a distância, espelhando o viés de perspectiva das fotografias naturais. Esse viés produz uma lacuna significativa de acurácia entre exemplos consistentes com a perspectiva e exemplos contra-heurísticos, e se intensifica sob escalonamento de dados mesmo enquanto a acurácia geral do benchmark melhora. Além disso, mostramos que modelos com pontuações semelhantes em benchmarks podem exibir representações internas diferentes, e que essas diferenças preveem acurácia e robustez em diversos benchmarks de raciocínio espacial. Para isolar esse viés de distorções no conjunto de avaliação, apresentamos o SpatialTunnel, um benchmark sintético projetado para expor vieses de atalho espacial ao remover correlações comuns presentes em imagens naturais. Experimentos confirmam que o emaranhamento é intrínseco ao modelo, e que modelos com eixos espaciais bem separados exibem maior robustez, sugerindo que representações espaciais bem estruturadas levam a um raciocínio espacial mais confiável em diversos benchmarks. Código e benchmark estão disponíveis na página do projeto: https://cheolhong0916.github.io/whyfarlooksup.github.io/.

English

Vision-language models (VLMs) achieve strong performance on spatial reasoning benchmarks, yet it remains unclear whether this reflects structured 3D understanding or reliance on statistical shortcuts in natural images. We introduce a representation-level analysis framework that constructs minimal contrastive pairs to measure how spatial axes are organized and disentangled within VLM embeddings. Our analysis across multiple model families reveals a consistent vertical-distance entanglement: models conflate vertical image position with distance, mirroring the perspective bias of natural photographs. This bias produces a significant accuracy gap between perspective-consistent and counter-heuristic examples, and intensifies under data scaling even as overall benchmark accuracy improves. We further show that models with similar benchmark scores can exhibit different internal representations, and that these differences predict accuracy and robustness across diverse spatial reasoning benchmarks. To isolate this bias from evaluation-set skew, we introduce SpatialTunnel, a synthetic benchmark designed to expose spatial shortcut biases by removing common correlations present in natural images. Experiments confirm that the entanglement is model-intrinsic, and that models with well-separated spatial axes exhibit greater robustness, suggesting that well-structured spatial representations lead to more reliable spatial reasoning across diverse benchmarks. Code and benchmark are available on the project page: https://cheolhong0916.github.io/whyfarlooksup.github.io/.