Por qué lo lejano se ve arriba: Explorando la representación espacial en modelos de visión-lenguaje

Resumen

Los modelos de lenguaje-visión (VLM) logran un rendimiento sólido en puntos de referencia de razonamiento espacial, pero aún no está claro si esto refleja una comprensión 3D estructurada o una dependencia de atajos estadísticos en imágenes naturales. Presentamos un marco de análisis a nivel de representación que construye pares contrastivos mínimos para medir cómo se organizan y separan los ejes espaciales en las incrustaciones de los VLM. Nuestro análisis en múltiples familias de modelos revela un enredo consistente entre distancia vertical: los modelos confunden la posición vertical de la imagen con la distancia, reflejando el sesgo de perspectiva de las fotografías naturales. Este sesgo produce una brecha de precisión significativa entre ejemplos consistentes con la perspectiva y aquellos contra-heurísticos, y se intensifica con el escalado de datos incluso cuando la precisión general del punto de referencia mejora. Además, mostramos que modelos con puntuaciones similares en puntos de referencia pueden exhibir representaciones internas distintas, y que estas diferencias predicen la precisión y robustez en diversos puntos de referencia de razonamiento espacial. Para aislar este sesgo del desequilibrio en los conjuntos de evaluación, introducimos SpatialTunnel, un punto de referencia sintético diseñado para exponer sesgos de atajos espaciales eliminando correlaciones comunes presentes en imágenes naturales. Los experimentos confirman que el enredo es intrínseco al modelo, y que los modelos con ejes espaciales bien separados presentan mayor robustez, lo que sugiere que las representaciones espaciales bien estructuradas conducen a un razonamiento espacial más fiable en diversos puntos de referencia. El código y el punto de referencia están disponibles en la página del proyecto: https://cheolhong0916.github.io/whyfarlooksup.github.io/.

English

Vision-language models (VLMs) achieve strong performance on spatial reasoning benchmarks, yet it remains unclear whether this reflects structured 3D understanding or reliance on statistical shortcuts in natural images. We introduce a representation-level analysis framework that constructs minimal contrastive pairs to measure how spatial axes are organized and disentangled within VLM embeddings. Our analysis across multiple model families reveals a consistent vertical-distance entanglement: models conflate vertical image position with distance, mirroring the perspective bias of natural photographs. This bias produces a significant accuracy gap between perspective-consistent and counter-heuristic examples, and intensifies under data scaling even as overall benchmark accuracy improves. We further show that models with similar benchmark scores can exhibit different internal representations, and that these differences predict accuracy and robustness across diverse spatial reasoning benchmarks. To isolate this bias from evaluation-set skew, we introduce SpatialTunnel, a synthetic benchmark designed to expose spatial shortcut biases by removing common correlations present in natural images. Experiments confirm that the entanglement is model-intrinsic, and that models with well-separated spatial axes exhibit greater robustness, suggesting that well-structured spatial representations lead to more reliable spatial reasoning across diverse benchmarks. Code and benchmark are available on the project page: https://cheolhong0916.github.io/whyfarlooksup.github.io/.