SpaceDG : Évaluation comparative de l'intelligence spatiale sous dégradation visuelle

Résumé

Les modèles de langage multimodaux à grande échelle (MLLMs) ont réalisé des progrès rapides en matière d’intelligence spatiale, mais les benchmarks existants de raisonnement spatial supposent largement des entrées visuelles parfaites et négligent les dégradations qui surviennent couramment dans les déploiements réels, telles que le flou de mouvement, la faible luminosité, les intempéries, les distorsions optiques et les artefacts de compression. Cela soulève une question fondamentale : dans quelle mesure l’intelligence spatiale des MLLMs actuels est-elle robuste face à des observations visuelles imparfaites ? Pour répondre à cette question, nous introduisons SpaceDG, le premier jeu de données à grande échelle pour la compréhension spatiale tenant compte des dégradations. Il est construit à l’aide d’un moteur de synthèse de dégradations physiquement fondé, qui intègre le processus de formation des dégradations dans le rendu du 3D Gaussian Splatting (3DGS), permettant ainsi une simulation réaliste de neuf types de dégradations. Le jeu de données résultant contient environ 1 million de paires question-réponse issues de près de 1 000 scènes intérieures. Nous introduisons également SpaceDG-Bench, un benchmark vérifié par des humains comprenant 1 102 questions couvrant 11 catégories de raisonnement et 9 types de dégradations visuelles, produisant plus de 10 000 instances de VQA. L’évaluation de 25 MLLMs open source et propriétaires révèle que les dégradations visuelles altèrent de manière constante et substantielle le raisonnement spatial, mettant en évidence un écart critique de robustesse. Enfin, nous montrons que le fine-tuning sur SpaceDG améliore nettement la robustesse face aux dégradations et peut même surpasser la performance humaine dans des conditions dégradées, sans aucune perte de performance sur des images propres, soulignant ainsi le potentiel de l’entraînement tenant compte des dégradations pour une intelligence spatiale robuste.

English

Multimodal Large Language Models (MLLMs) have made rapid progress in spatial intelligence, yet existing spatial reasoning benchmarks largely assume pristine visual inputs and overlook the degradations that commonly occur in real-world deployment, such as motion blur, low light, adverse weather, lens distortion, and compression artifacts. This raises a fundamental question: how robust is the spatial intelligence of current MLLMs when visual observations are imperfect? To answer this question, we introduce SpaceDG, the first large-scale dataset for degradation-aware spatial understanding. It is constructed with a physically grounded degradation synthesis engine that embeds degradation formation process into 3D Gaussian Splatting (3DGS) rendering, enabling realistic simulation of nine degradation types. The resulting dataset contains approximately 1M QA pairs from nearly 1,000 indoor scenes. We further introduce SpaceDG-Bench, an human-verified benchmark with 1,102 questions spanning 11 reasoning categories and 9 visual degradation types, yielding over 10K VQA instances. Evaluating 25 open- and closed-source MLLMs reveals that visual degradations consistently and substantially impair spatial reasoning, exposing a critical robustness gap. Finally, we show that finetuning on SpaceDG markedly improves degradation robustness and can even surpass human performance under degraded conditions without any performance drop on clean images, highlighting the promise of degradation-aware training for robust spatial intelligence.