ChatPaper.aiChatPaper

大規模モデル時代におけるマルチモーダル空間推論:サーベイとベンチマーク

Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks

October 29, 2025
著者: Xu Zheng, Zihao Dongfang, Lutao Jiang, Boyuan Zheng, Yulong Guo, Zhenquan Zhang, Giuliano Albanese, Runyi Yang, Mengjiao Ma, Zixin Zhang, Chenfei Liao, Dingcheng Zhen, Yuanhuiyi Lyu, Yuqian Fu, Bin Ren, Linfeng Zhang, Danda Pani Paudel, Nicu Sebe, Luc Van Gool, Xuming Hu
cs.AI

要旨

人間は、視覚や聴覚などのマルチモーダルな観察を通じて空間を理解する空間推論能力を有している。大規模マルチモーダル推論モデルは、知覚と推論を学習することでこれらの能力を拡張し、多様な空間タスクにおいて有望な性能を示している。しかし、これらのモデルに関する体系的なレビューと公開ベンチマークは依然として限られている。本サーベイでは、大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを提供し、マルチモーダル大規模言語モデル(MLLMs)の最近の進展を分類するとともに、評価のための公開ベンチマークを紹介する。まず一般的な空間推論の概要を述べ、特に学習後技術、説明可能性、アーキテクチャに焦点を当てる。従来の2Dタスクを超えて、空間関係推論、シーン・レイアウト理解、3D空間における視覚質問応答とグラウンディングを検討する。また、視覚言語ナビゲーションや行動モデルを含む具身化AIの進展もレビューする。さらに、新しいセンサーを通じて新たな空間理解に寄与する音声やエゴセントリックビデオなどの新興モダリティにも言及する。本サーベイがマルチモーダル空間推論という成長著しい分野の確固たる基礎を築き、洞察を提供すると確信している。本サーベイの最新情報、公開ベンチマークのコードと実装は、https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning で確認できる。
English
Humans possess spatial reasoning abilities that enable them to understand spaces through multimodal observations, such as vision and sound. Large multimodal reasoning models extend these abilities by learning to perceive and reason, showing promising performance across diverse spatial tasks. However, systematic reviews and publicly available benchmarks for these models remain limited. In this survey, we provide a comprehensive review of multimodal spatial reasoning tasks with large models, categorizing recent progress in multimodal large language models (MLLMs) and introducing open benchmarks for evaluation. We begin by outlining general spatial reasoning, focusing on post-training techniques, explainability, and architecture. Beyond classical 2D tasks, we examine spatial relationship reasoning, scene and layout understanding, as well as visual question answering and grounding in 3D space. We also review advances in embodied AI, including vision-language navigation and action models. Additionally, we consider emerging modalities such as audio and egocentric video, which contribute to novel spatial understanding through new sensors. We believe this survey establishes a solid foundation and offers insights into the growing field of multimodal spatial reasoning. Updated information about this survey, codes and implementation of the open benchmarks can be found at https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.
PDF161December 2, 2025