Razonamiento Espacial Multimodal en la Era de los Modelos Grandes: Una Revisión y Puntos de Referencia
Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks
October 29, 2025
Autores: Xu Zheng, Zihao Dongfang, Lutao Jiang, Boyuan Zheng, Yulong Guo, Zhenquan Zhang, Giuliano Albanese, Runyi Yang, Mengjiao Ma, Zixin Zhang, Chenfei Liao, Dingcheng Zhen, Yuanhuiyi Lyu, Yuqian Fu, Bin Ren, Linfeng Zhang, Danda Pani Paudel, Nicu Sebe, Luc Van Gool, Xuming Hu
cs.AI
Resumen
Los seres humanos poseen habilidades de razonamiento espacial que les permiten comprender espacios mediante observaciones multimodales, como la visión y el sonido. Los grandes modelos de razonamiento multimodal amplían estas capacidades al aprender a percibir y razonar, mostrando un rendimiento prometedor en diversas tareas espaciales. Sin embargo, las revisiones sistemáticas y los puntos de referencia públicos para evaluar estos modelos siguen siendo limitados. En este estudio, ofrecemos una revisión exhaustiva de las tareas de razonamiento espacial multimodal con modelos de gran escala, categorizando los avances recientes en modelos de lenguaje multimodal (MLLMs) e introduciendo benchmarks abiertos para su evaluación. Comenzamos delineando el razonamiento espacial general, centrándonos en técnicas de posentrenamiento, explicabilidad y arquitectura. Más allá de las tareas 2D clásicas, examinamos el razonamiento de relaciones espaciales, la comprensión de escenas y diseños, así como la respuesta a preguntas visuales y la localización en espacios 3D. También revisamos los avances en IA embodada, incluyendo modelos de navegación y acción visión-lenguaje. Adicionalmente, consideramos modalidades emergentes como el audio y el video egocéntrico, que contribuyen a nuevas formas de comprensión espacial mediante nuevos sensores. Creemos que este estudio establece una base sólida y ofrece perspectivas sobre el creciente campo del razonamiento espacial multimodal. La información actualizada sobre esta revisión, los códigos y la implementación de los benchmarks abiertos pueden encontrarse en https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.
English
Humans possess spatial reasoning abilities that enable them to understand
spaces through multimodal observations, such as vision and sound. Large
multimodal reasoning models extend these abilities by learning to perceive and
reason, showing promising performance across diverse spatial tasks. However,
systematic reviews and publicly available benchmarks for these models remain
limited. In this survey, we provide a comprehensive review of multimodal
spatial reasoning tasks with large models, categorizing recent progress in
multimodal large language models (MLLMs) and introducing open benchmarks for
evaluation. We begin by outlining general spatial reasoning, focusing on
post-training techniques, explainability, and architecture. Beyond classical 2D
tasks, we examine spatial relationship reasoning, scene and layout
understanding, as well as visual question answering and grounding in 3D space.
We also review advances in embodied AI, including vision-language navigation
and action models. Additionally, we consider emerging modalities such as audio
and egocentric video, which contribute to novel spatial understanding through
new sensors. We believe this survey establishes a solid foundation and offers
insights into the growing field of multimodal spatial reasoning. Updated
information about this survey, codes and implementation of the open benchmarks
can be found at https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.