SpaceDG: Avaliação Comparativa da Inteligência Espacial sob Degradação Visual

Resumo

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm feito progressos rápidos em inteligência espacial; no entanto, os benchmarks existentes de raciocínio espacial assumem entradas visuais intactas e ignoram as degradações que comumente ocorrem em cenários de implantação real, como desfoque de movimento, pouca luz, condições climáticas adversas, distorção de lente e artefatos de compressão. Isso levanta uma questão fundamental: quão robusta é a inteligência espacial dos MLLMs atuais quando as observações visuais são imperfeitas? Para responder a essa pergunta, apresentamos o SpaceDG, o primeiro conjunto de dados em larga escala para compreensão espacial consciente de degradação. Ele é construído com um motor de síntese de degradação fisicamente fundamentado que incorpora o processo de formação de degradação na renderização do 3D Gaussian Splatting (3DGS), permitindo a simulação realista de nove tipos de degradação. O conjunto de dados resultante contém aproximadamente 1 milhão de pares de perguntas e respostas de quase 1.000 cenas internas. Apresentamos também o SpaceDG-Bench, um benchmark verificado por humanos com 1.102 perguntas abrangendo 11 categorias de raciocínio e 9 tipos de degradação visual, gerando mais de 10 mil instâncias de VQA. A avaliação de 25 MLLMs de código aberto e fechado revela que as degradações visuais prejudicam consistentemente e substancialmente o raciocínio espacial, expondo uma lacuna crítica de robustez. Finalmente, mostramos que o fine-tuning no SpaceDG melhora significativamente a robustez à degradação e pode até superar o desempenho humano em condições degradadas, sem qualquer queda de desempenho em imagens limpas, destacando a promessa do treinamento consciente de degradação para uma inteligência espacial robusta.

English

Multimodal Large Language Models (MLLMs) have made rapid progress in spatial intelligence, yet existing spatial reasoning benchmarks largely assume pristine visual inputs and overlook the degradations that commonly occur in real-world deployment, such as motion blur, low light, adverse weather, lens distortion, and compression artifacts. This raises a fundamental question: how robust is the spatial intelligence of current MLLMs when visual observations are imperfect? To answer this question, we introduce SpaceDG, the first large-scale dataset for degradation-aware spatial understanding. It is constructed with a physically grounded degradation synthesis engine that embeds degradation formation process into 3D Gaussian Splatting (3DGS) rendering, enabling realistic simulation of nine degradation types. The resulting dataset contains approximately 1M QA pairs from nearly 1,000 indoor scenes. We further introduce SpaceDG-Bench, an human-verified benchmark with 1,102 questions spanning 11 reasoning categories and 9 visual degradation types, yielding over 10K VQA instances. Evaluating 25 open- and closed-source MLLMs reveals that visual degradations consistently and substantially impair spatial reasoning, exposing a critical robustness gap. Finally, we show that finetuning on SpaceDG markedly improves degradation robustness and can even surpass human performance under degraded conditions without any performance drop on clean images, highlighting the promise of degradation-aware training for robust spatial intelligence.