Warum Ferne nach oben schaut: Untersuchung der räumlichen Repräsentation in Vision-Language-Modellen

Zusammenfassung

Vision-Language-Modelle (VLMs) erzielen starke Leistungen bei räumlichen Reasoning-Benchmarks, doch bleibt unklar, ob dies auf strukturiertem 3D-Verständnis oder auf der Nutzung statistischer Abkürzungen in natürlichen Bildern beruht. Wir führen ein repräsentationsbasiertes Analyseverfahren ein, das minimale kontrastive Paare konstruiert, um zu messen, wie räumliche Achsen innerhalb von VLM-Einbettungen organisiert und entflochten sind. Unsere Analyse über mehrere Modellfamilien hinweg offenbart eine konsistente Verflechtung von Vertikale und Distanz: Modelle vermischen die vertikale Bildposition mit der Distanz, was den perspektivischen Bias natürlicher Fotografien widerspiegelt. Dieser Bias führt zu einer signifikanten Genauigkeitslücke zwischen perspektivisch konsistenten und kontraintuitiven Beispielen und verstärkt sich unter Datenskalierung, selbst wenn die Gesamtgenauigkeit der Benchmarks steigt. Wir zeigen weiterhin, dass Modelle mit ähnlichen Benchmark-Ergebnissen unterschiedliche interne Repräsentationen aufweisen können und dass diese Unterschiede die Genauigkeit und Robustheit über verschiedene räumliche Reasoning-Benchmarks hinweg vorhersagen. Um diesen Bias von der Verzerrung des Evaluierungssets zu isolieren, führen wir SpatialTunnel ein, einen synthetischen Benchmark, der darauf ausgelegt ist, räumliche Abkürzungsbias aufzudecken, indem er in natürlichen Bildern vorhandene häufige Korrelationen entfernt. Experimente bestätigen, dass die Verflechtung modellimmanent ist und dass Modelle mit gut getrennten räumlichen Achsen eine größere Robustheit aufweisen, was darauf hindeutet, dass gut strukturierte räumliche Repräsentationen zu zuverlässigerem räumlichen Reasoning über verschiedene Benchmarks hinweg führen. Code und Benchmark sind auf der Projektseite verfügbar: https://cheolhong0916.github.io/whyfarlooksup.github.io/.

English

Vision-language models (VLMs) achieve strong performance on spatial reasoning benchmarks, yet it remains unclear whether this reflects structured 3D understanding or reliance on statistical shortcuts in natural images. We introduce a representation-level analysis framework that constructs minimal contrastive pairs to measure how spatial axes are organized and disentangled within VLM embeddings. Our analysis across multiple model families reveals a consistent vertical-distance entanglement: models conflate vertical image position with distance, mirroring the perspective bias of natural photographs. This bias produces a significant accuracy gap between perspective-consistent and counter-heuristic examples, and intensifies under data scaling even as overall benchmark accuracy improves. We further show that models with similar benchmark scores can exhibit different internal representations, and that these differences predict accuracy and robustness across diverse spatial reasoning benchmarks. To isolate this bias from evaluation-set skew, we introduce SpatialTunnel, a synthetic benchmark designed to expose spatial shortcut biases by removing common correlations present in natural images. Experiments confirm that the entanglement is model-intrinsic, and that models with well-separated spatial axes exhibit greater robustness, suggesting that well-structured spatial representations lead to more reliable spatial reasoning across diverse benchmarks. Code and benchmark are available on the project page: https://cheolhong0916.github.io/whyfarlooksup.github.io/.