Raisonnement spatial multimodal à l'ère des grands modèles : une étude et des référentiels
Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks
October 29, 2025
papers.authors: Xu Zheng, Zihao Dongfang, Lutao Jiang, Boyuan Zheng, Yulong Guo, Zhenquan Zhang, Giuliano Albanese, Runyi Yang, Mengjiao Ma, Zixin Zhang, Chenfei Liao, Dingcheng Zhen, Yuanhuiyi Lyu, Yuqian Fu, Bin Ren, Linfeng Zhang, Danda Pani Paudel, Nicu Sebe, Luc Van Gool, Xuming Hu
cs.AI
papers.abstract
Les humains possèdent des capacités de raisonnement spatial qui leur permettent de comprendre les espaces grâce à des observations multimodales, telles que la vision et l'ouïe. Les grands modèles de raisonnement multimodal étendent ces capacités en apprenant à percevoir et à raisonner, affichant des performances prometteuses dans diverses tâches spatiales. Cependant, les revues systématiques et les benchmarks publics pour ces modèles restent limités. Dans cette étude, nous proposons une revue complète des tâches de raisonnement spatial multimodal avec de grands modèles, en catégorisant les progrès récents des grands modèles linguistiques multimodaux (MLLM) et en introduisant des benchmarks ouverts pour l'évaluation. Nous commençons par décrire le raisonnement spatial général, en nous concentrant sur les techniques de post-entraînement, l'explicabilité et l'architecture. Au-delà des tâches classiques en 2D, nous examinons le raisonnement sur les relations spatiales, la compréhension des scènes et des agencements, ainsi que la réponse à des questions visuelles et l'ancrage dans l'espace 3D. Nous passons également en revue les progrès de l'IA incarnée, incluant la navigation et les modèles d'action vision-langage. De plus, nous considérons les modalités émergentes comme l'audio et la vidéo égocentrique, qui contribuent à une nouvelle compréhension spatiale grâce à de nouveaux capteurs. Nous pensons que cette étude établit une base solide et offre des perspectives sur le domaine croissant du raisonnement spatial multimodal. Les informations mises à jour sur cette étude, les codes et l'implémentation des benchmarks ouverts sont disponibles à l'adresse https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.
English
Humans possess spatial reasoning abilities that enable them to understand
spaces through multimodal observations, such as vision and sound. Large
multimodal reasoning models extend these abilities by learning to perceive and
reason, showing promising performance across diverse spatial tasks. However,
systematic reviews and publicly available benchmarks for these models remain
limited. In this survey, we provide a comprehensive review of multimodal
spatial reasoning tasks with large models, categorizing recent progress in
multimodal large language models (MLLMs) and introducing open benchmarks for
evaluation. We begin by outlining general spatial reasoning, focusing on
post-training techniques, explainability, and architecture. Beyond classical 2D
tasks, we examine spatial relationship reasoning, scene and layout
understanding, as well as visual question answering and grounding in 3D space.
We also review advances in embodied AI, including vision-language navigation
and action models. Additionally, we consider emerging modalities such as audio
and egocentric video, which contribute to novel spatial understanding through
new sensors. We believe this survey establishes a solid foundation and offers
insights into the growing field of multimodal spatial reasoning. Updated
information about this survey, codes and implementation of the open benchmarks
can be found at https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.