SpaceDG: Benchmarking de la inteligencia espacial bajo degradación visual

Resumen

Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han logrado un rápido progreso en inteligencia espacial. Sin embargo, los puntos de referencia existentes para el razonamiento espacial asumen, en gran medida, entradas visuales prístinas y pasan por alto las degradaciones que ocurren comúnmente en despliegues del mundo real, como el desenfoque por movimiento, la baja iluminación, las condiciones climáticas adversas, la distorsión de lentes y los artefactos de compresión. Esto plantea una pregunta fundamental: ¿qué tan robusta es la inteligencia espacial de los MLLMs actuales cuando las observaciones visuales son imperfectas? Para responder a esta pregunta, presentamos SpaceDG, el primer conjunto de datos a gran escala diseñado para la comprensión espacial consciente de degradaciones. Este conjunto de datos se construye mediante un motor de síntesis de degradaciones físicamente fundamentado que integra el proceso de formación de degradaciones en la representación mediante Gaussian Splatting 3D (3DGS), permitiendo la simulación realista de nueve tipos de degradación. El conjunto de datos resultante contiene aproximadamente 1 millón de pares de preguntas y respuestas provenientes de casi 1000 escenas de interiores. Además, presentamos SpaceDG-Bench, un punto de referencia verificado por humanos con 1102 preguntas que abarcan 11 categorías de razonamiento y 9 tipos de degradación visual, generando más de 10 mil instancias de Preguntas y Respuestas Visuales (VQA). La evaluación de 25 MLLMs de código abierto y cerrado revela que las degradaciones视觉es afectan de manera consistente y sustancial el razonamiento espacial, exponiendo una brecha crítica en la robustez. Finalmente, demostramos que el ajuste fino en SpaceDG mejora notablemente la robustez frente a degradaciones y puede incluso superar el rendimiento humano en condiciones degradadas, sin ninguna disminución en el rendimiento con imágenes limpias, lo que resalta la promesa del entrenamiento consciente de degradaciones para una inteligencia espacial robusta.

English

Multimodal Large Language Models (MLLMs) have made rapid progress in spatial intelligence, yet existing spatial reasoning benchmarks largely assume pristine visual inputs and overlook the degradations that commonly occur in real-world deployment, such as motion blur, low light, adverse weather, lens distortion, and compression artifacts. This raises a fundamental question: how robust is the spatial intelligence of current MLLMs when visual observations are imperfect? To answer this question, we introduce SpaceDG, the first large-scale dataset for degradation-aware spatial understanding. It is constructed with a physically grounded degradation synthesis engine that embeds degradation formation process into 3D Gaussian Splatting (3DGS) rendering, enabling realistic simulation of nine degradation types. The resulting dataset contains approximately 1M QA pairs from nearly 1,000 indoor scenes. We further introduce SpaceDG-Bench, an human-verified benchmark with 1,102 questions spanning 11 reasoning categories and 9 visual degradation types, yielding over 10K VQA instances. Evaluating 25 open- and closed-source MLLMs reveals that visual degradations consistently and substantially impair spatial reasoning, exposing a critical robustness gap. Finally, we show that finetuning on SpaceDG markedly improves degradation robustness and can even surpass human performance under degraded conditions without any performance drop on clean images, highlighting the promise of degradation-aware training for robust spatial intelligence.