Explorando la Inteligencia Espacial desde una Perspectiva Generativa

Resumen

La inteligencia espacial es esencial para los modelos de lenguaje multimodal de gran escala, sin embargo, los puntos de referencia actuales la evalúan principalmente desde una perspectiva de comprensión. Nos preguntamos si los modelos generativos modernos o los modelos multimodales unificados también poseen inteligencia espacial generativa (GSI), es decir, la capacidad de respetar y manipular restricciones espaciales 3D durante la generación de imágenes, y si dicha capacidad puede medirse o mejorarse. Presentamos GSI-Bench, el primer punto de referencia diseñado para cuantificar la GSI mediante edición de imágenes espacialmente fundamentada. Consta de dos componentes complementarios: GSI-Real, un conjunto de datos de alta calidad del mundo real construido mediante una canalización de generación y filtrado guiada por prioridades 3D, y GSI-Syn, un punto de referencia sintético a gran escala con operaciones espaciales controlables y etiquetado completamente automatizado. Junto con un protocolo de evaluación unificado, GSI-Bench permite una evaluación escalable e independiente del modelo del cumplimiento espacial y la fidelidad de la edición. Los experimentos muestran que el ajuste fino de modelos multimodales unificados en GSI-Syn produce ganancias sustanciales tanto en tareas sintéticas como reales y, sorprendentemente, también mejora la comprensión espacial en tareas posteriores. Esto proporciona la primera evidencia clara de que el entrenamiento generativo puede fortalecer tangiblemente el razonamiento espacial, estableciendo una nueva vía para avanzar en la inteligencia espacial en modelos multimodales.

English

Spatial intelligence is essential for multimodal large language models, yet current benchmarks largely assess it only from an understanding perspective. We ask whether modern generative or unified multimodal models also possess generative spatial intelligence (GSI), the ability to respect and manipulate 3D spatial constraints during image generation, and whether such capability can be measured or improved. We introduce GSI-Bench, the first benchmark designed to quantify GSI through spatially grounded image editing. It consists of two complementary components: GSI-Real, a high-quality real-world dataset built via a 3D-prior-guided generation and filtering pipeline, and GSI-Syn, a large-scale synthetic benchmark with controllable spatial operations and fully automated labeling. Together with a unified evaluation protocol, GSI-Bench enables scalable, model-agnostic assessment of spatial compliance and editing fidelity. Experiments show that fine-tuning unified multimodal models on GSI-Syn yields substantial gains on both synthetic and real tasks and, strikingly, also improves downstream spatial understanding. This provides the first clear evidence that generative training can tangibly strengthen spatial reasoning, establishing a new pathway for advancing spatial intelligence in multimodal models.

Explorando la Inteligencia Espacial desde una Perspectiva Generativa

Exploring Spatial Intelligence from a Generative Perspective

Resumen

Support