Pourquoi le lointain est-il en haut : analyse de la représentation spatiale dans les modèles vision-langage

Résumé

Les modèles vision-langage (VLMs) obtiennent de bonnes performances sur les benchmarks de raisonnement spatial, mais il n'est pas clair si cela reflète une compréhension structurée en 3D ou un recours à des raccourcis statistiques présents dans les images naturelles. Nous introduisons un cadre d'analyse au niveau des représentations qui construit des paires contrastives minimales pour mesurer comment les axes spatiaux sont organisés et désenchevêtrés dans les plongements des VLMs. Notre analyse sur plusieurs familles de modèles révèle un enchevêtrement vertical-distance systématique : les modèles confondent la position verticale dans l'image avec la distance, reproduisant le biais de perspective des photographies naturelles. Ce biais produit un écart de précision significatif entre les exemples cohérents avec la perspective et ceux qui contreviennent à cette heuristique, et s'intensifie avec le passage à l'échelle des données, même si la précision globale sur les benchmarks s'améliore. Nous montrons en outre que des modèles ayant des scores de benchmark similaires peuvent présenter des représentations internes différentes, et que ces différences prédisent la précision et la robustesse sur divers benchmarks de raisonnement spatial. Pour isoler ce biais du déséquilibre des jeux d'évaluation, nous introduisons SpatialTunnel, un benchmark synthétique conçu pour exposer les biais de raccourci spatiaux en supprimant les corrélations courantes présentes dans les images naturelles. Les expériences confirment que l'enchevêtrement est intrinsèque au modèle, et que les modèles dont les axes spatiaux sont bien séparés présentent une plus grande robustesse, ce qui suggère que des représentations spatiales bien structurées conduisent à un raisonnement spatial plus fiable sur divers benchmarks. Le code et le benchmark sont disponibles sur la page du projet : https://cheolhong0916.github.io/whyfarlooksup.github.io/.

English

Vision-language models (VLMs) achieve strong performance on spatial reasoning benchmarks, yet it remains unclear whether this reflects structured 3D understanding or reliance on statistical shortcuts in natural images. We introduce a representation-level analysis framework that constructs minimal contrastive pairs to measure how spatial axes are organized and disentangled within VLM embeddings. Our analysis across multiple model families reveals a consistent vertical-distance entanglement: models conflate vertical image position with distance, mirroring the perspective bias of natural photographs. This bias produces a significant accuracy gap between perspective-consistent and counter-heuristic examples, and intensifies under data scaling even as overall benchmark accuracy improves. We further show that models with similar benchmark scores can exhibit different internal representations, and that these differences predict accuracy and robustness across diverse spatial reasoning benchmarks. To isolate this bias from evaluation-set skew, we introduce SpatialTunnel, a synthetic benchmark designed to expose spatial shortcut biases by removing common correlations present in natural images. Experiments confirm that the entanglement is model-intrinsic, and that models with well-separated spatial axes exhibit greater robustness, suggesting that well-structured spatial representations lead to more reliable spatial reasoning across diverse benchmarks. Code and benchmark are available on the project page: https://cheolhong0916.github.io/whyfarlooksup.github.io/.