SpaceDG: Benchmarking räumlicher Intelligenz unter visueller Degradation

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben rapide Fortschritte in der räumlichen Intelligenz gemacht, doch bestehende Benchmarks für räumliches Denken gehen weitgehend von makellosen visuellen Eingaben aus und übersehen die Beeinträchtigungen, die im realen Einsatz häufig auftreten, wie Bewegungsunschärfe, schwaches Licht, widrige Wetterbedingungen, Linsenverzerrung und Kompressionsartefakte. Dies wirft eine grundlegende Frage auf: Wie robust ist die räumliche Intelligenz aktueller MLLMs, wenn visuelle Beobachtungen unvollkommen sind? Um diese Frage zu beantworten, stellen wir SpaceDG vor, den ersten groß angelegten Datensatz für beeinträchtigungsbewusstes räumliches Verständnis. Er wurde mit einer physikalisch fundierten Engine zur Synthese von Beeinträchtigungen erstellt, die den Entstehungsprozess von Beeinträchtigungen in das Rendering mit 3D Gaussian Splatting (3DGS) einbettet und so eine realistische Simulation von neun Beeinträchtigungsarten ermöglicht. Der resultierende Datensatz enthält etwa 1 Million Frage-Antwort-Paare aus fast 1.000 Innenraumszenen. Darüber hinaus führen wir SpaceDG-Bench ein, einen von Menschen verifizierten Benchmark mit 1.102 Fragen aus 11 Denkkategorien und 9 visuellen Beeinträchtigungsarten, was über 10.000 VQA-Instanzen ergibt. Die Evaluierung von 25 Open- und Closed-Source-MLLMs zeigt, dass visuelle Beeinträchtigungen das räumliche Denken durchweg und erheblich beeinträchtigen, was eine kritische Robustheitslücke offenlegt. Schließlich zeigen wir, dass das Feintuning auf SpaceDG die Robustheit gegenüber Beeinträchtigungen deutlich verbessert und unter beeinträchtigten Bedingungen sogar die menschliche Leistung übertreffen kann, ohne Einbußen bei sauberen Bildern, was das Potenzial eines beeinträchtigungsbewussten Trainings für robuste räumliche Intelligenz unterstreicht.

English

Multimodal Large Language Models (MLLMs) have made rapid progress in spatial intelligence, yet existing spatial reasoning benchmarks largely assume pristine visual inputs and overlook the degradations that commonly occur in real-world deployment, such as motion blur, low light, adverse weather, lens distortion, and compression artifacts. This raises a fundamental question: how robust is the spatial intelligence of current MLLMs when visual observations are imperfect? To answer this question, we introduce SpaceDG, the first large-scale dataset for degradation-aware spatial understanding. It is constructed with a physically grounded degradation synthesis engine that embeds degradation formation process into 3D Gaussian Splatting (3DGS) rendering, enabling realistic simulation of nine degradation types. The resulting dataset contains approximately 1M QA pairs from nearly 1,000 indoor scenes. We further introduce SpaceDG-Bench, an human-verified benchmark with 1,102 questions spanning 11 reasoning categories and 9 visual degradation types, yielding over 10K VQA instances. Evaluating 25 open- and closed-source MLLMs reveals that visual degradations consistently and substantially impair spatial reasoning, exposing a critical robustness gap. Finally, we show that finetuning on SpaceDG markedly improves degradation robustness and can even surpass human performance under degraded conditions without any performance drop on clean images, highlighting the promise of degradation-aware training for robust spatial intelligence.