ViewSpatial-Bench: Bewertung der räumlichen Lokalisierung aus mehreren Perspektiven in Vision-Sprach-Modellen
ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models
May 27, 2025
Autoren: Dingming Li, Hongxing Li, Zixuan Wang, Yuchen Yan, Hang Zhang, Siqi Chen, Guiyang Hou, Shengpei Jiang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang
cs.AI
Zusammenfassung
Vision-Language-Modelle (VLMs) haben bemerkenswerte Fähigkeiten beim Verstehen und Schlussfolgern über visuelle Inhalte gezeigt, doch bestehen erhebliche Herausforderungen bei Aufgaben, die ein Verständnis über verschiedene Blickwinkel und räumliches Denken erfordern. Wir identifizieren eine kritische Einschränkung: Aktuelle VLMs sind vor allem in der Lage, egozentrisches räumliches Denken (aus der Perspektive der Kamera) zu bewältigen, scheitern jedoch bei der Verallgemeinerung auf allozentrische Blickwinkel, wenn sie den räumlichen Bezugsrahmen einer anderen Entität einnehmen müssen. Wir stellen ViewSpatial-Bench vor, den ersten umfassenden Benchmark, der speziell für die Bewertung der räumlichen Lokalisierungserkennung über mehrere Blickwinkel entwickelt wurde und fünf verschiedene Aufgabentypen abdeckt. Dieser wird durch einen automatisierten 3D-Annotationspipeline unterstützt, der präzise Richtungsbeschriftungen generiert. Die umfassende Evaluierung verschiedener VLMs auf ViewSpatial-Bench zeigt eine signifikante Leistungsdiskrepanz: Modelle erzielen vernünftige Ergebnisse bei Aufgaben aus der Kameraperspektive, weisen jedoch eine geringere Genauigkeit auf, wenn sie aus der menschlichen Perspektive schlussfolgern sollen. Durch das Feinabstimmen von VLMs auf unser räumliches Multi-Perspektiven-Datensatz erreichen wir eine Gesamtleistungssteigerung von 46,24 % über alle Aufgaben hinweg, was die Wirksamkeit unseres Ansatzes unterstreicht. Unsere Arbeit etabliert einen entscheidenden Benchmark für räumliche Intelligenz in verkörperten KI-Systemen und liefert empirische Belege dafür, dass die Modellierung von 3D-räumlichen Beziehungen die entsprechenden räumlichen Verständnisfähigkeiten von VLMs verbessert.
English
Vision-language models (VLMs) have demonstrated remarkable capabilities in
understanding and reasoning about visual content, but significant challenges
persist in tasks requiring cross-viewpoint understanding and spatial reasoning.
We identify a critical limitation: current VLMs excel primarily at egocentric
spatial reasoning (from the camera's perspective) but fail to generalize to
allocentric viewpoints when required to adopt another entity's spatial frame of
reference. We introduce ViewSpatial-Bench, the first comprehensive benchmark
designed specifically for multi-viewpoint spatial localization recognition
evaluation across five distinct task types, supported by an automated 3D
annotation pipeline that generates precise directional labels. Comprehensive
evaluation of diverse VLMs on ViewSpatial-Bench reveals a significant
performance disparity: models demonstrate reasonable performance on
camera-perspective tasks but exhibit reduced accuracy when reasoning from a
human viewpoint. By fine-tuning VLMs on our multi-perspective spatial dataset,
we achieve an overall performance improvement of 46.24% across tasks,
highlighting the efficacy of our approach. Our work establishes a crucial
benchmark for spatial intelligence in embodied AI systems and provides
empirical evidence that modeling 3D spatial relationships enhances VLMs'
corresponding spatial comprehension capabilities.Summary
AI-Generated Summary