Ragionamento Spaziale Multimodale nell'Era dei Modelli di Grande Dimensione: Una Rassegna e Benchmark
Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks
October 29, 2025
Autori: Xu Zheng, Zihao Dongfang, Lutao Jiang, Boyuan Zheng, Yulong Guo, Zhenquan Zhang, Giuliano Albanese, Runyi Yang, Mengjiao Ma, Zixin Zhang, Chenfei Liao, Dingcheng Zhen, Yuanhuiyi Lyu, Yuqian Fu, Bin Ren, Linfeng Zhang, Danda Pani Paudel, Nicu Sebe, Luc Van Gool, Xuming Hu
cs.AI
Abstract
Gli esseri umani possiedono capacità di ragionamento spaziale che consentono loro di comprendere gli spazi attraverso osservazioni multimodali, come la vista e l'udito. I grandi modelli di ragionamento multimodale estendono queste abilità imparando a percepire e ragionare, dimostrando prestazioni promettenti in varie attività spaziali. Tuttavia, revisioni sistematiche e benchmark pubblicamente disponibili per questi modelli rimangono limitati. In questa rassegna, forniamo una revisione completa dei compiti di ragionamento spaziale multimodale con grandi modelli, categorizzando i recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) e introducendo benchmark aperti per la valutazione. Iniziamo delineando il ragionamento spaziale generale, concentrandoci sulle tecniche post-addestramento, la spiegabilità e l'architettura. Oltre ai classici compiti 2D, esaminiamo il ragionamento sulle relazioni spaziali, la comprensione di scene e layout, nonché la risposta a domande visive e il grounding nello spazio 3D. Rivediamo inoltre i progressi nell'AI incarnata, inclusi i modelli di navigazione e azione visione-linguaggio. Consideriamo anche modalità emergenti come l'audio e il video egocentrico, che contribuiscono a una nuova comprensione spaziale attraverso nuovi sensori. Riteniamo che questa rassegna stabilisca una solida base e offra spunti sul crescente campo del ragionamento spaziale multimodale. Informazioni aggiornate su questa rassegna, codici e implementazione dei benchmark aperti sono disponibili su https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.
English
Humans possess spatial reasoning abilities that enable them to understand
spaces through multimodal observations, such as vision and sound. Large
multimodal reasoning models extend these abilities by learning to perceive and
reason, showing promising performance across diverse spatial tasks. However,
systematic reviews and publicly available benchmarks for these models remain
limited. In this survey, we provide a comprehensive review of multimodal
spatial reasoning tasks with large models, categorizing recent progress in
multimodal large language models (MLLMs) and introducing open benchmarks for
evaluation. We begin by outlining general spatial reasoning, focusing on
post-training techniques, explainability, and architecture. Beyond classical 2D
tasks, we examine spatial relationship reasoning, scene and layout
understanding, as well as visual question answering and grounding in 3D space.
We also review advances in embodied AI, including vision-language navigation
and action models. Additionally, we consider emerging modalities such as audio
and egocentric video, which contribute to novel spatial understanding through
new sensors. We believe this survey establishes a solid foundation and offers
insights into the growing field of multimodal spatial reasoning. Updated
information about this survey, codes and implementation of the open benchmarks
can be found at https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.