대규모 모델 시대의 다중모달 공간 추론: 연구 동향 및 벤치마크 종합 분석
Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks
October 29, 2025
저자: Xu Zheng, Zihao Dongfang, Lutao Jiang, Boyuan Zheng, Yulong Guo, Zhenquan Zhang, Giuliano Albanese, Runyi Yang, Mengjiao Ma, Zixin Zhang, Chenfei Liao, Dingcheng Zhen, Yuanhuiyi Lyu, Yuqian Fu, Bin Ren, Linfeng Zhang, Danda Pani Paudel, Nicu Sebe, Luc Van Gool, Xuming Hu
cs.AI
초록
인간은 시각과 청각과 같은 다중 모달 관찰을 통해 공간을 이해할 수 있는 공간 추론 능력을 지니고 있습니다. 대규모 다중 모달 추론 모델은 지각과 추론을 학습함으로써 이러한 능력을 확장하며, 다양한 공간 과제에서 유망한 성능을 보여주고 있습니다. 그러나 이러한 모델에 대한 체계적인 검토와 공개적으로 이용 가능한 벤치마크는 여전히 제한적입니다. 본 설문 연구에서는 대규모 모델을 활용한 다중 모달 공간 추론 과제에 대한 포괄적인 검토를 제공하며, 다중 모달 대규모 언어 모델(MLLM)의 최근 발전을 분류하고 평가를 위한 공개 벤치마크를 소개합니다. 먼저 일반적인 공간 추론을 개괄하고, 사후 학습 기술, 설명 가능성, 아키텍처에 중점을 둡니다. 고전적인 2D 과제를 넘어, 공간 관계 추론, 장면 및 레이아웃 이해, 그리고 3D 공간에서의 시각 질의응답 및 그라운딩을 검토합니다. 또한 시각-언어 항법 및 행동 모델을 포함한 구현형 AI의 발전도 살펴봅니다. 더불어, 새로운 센서를 통한 새로운 형태의 공간 이해에 기여하는 오디오 및 에고센트릭 비디오와 같은 새로운 모달리티도 고려합니다. 우리는 이 설문 연구가 다중 모달 공간 추론이라는 성장하는 분야에 견고한 기초를 마련하고 통찰력을 제공한다고 믿습니다. 본 설문 연구의 최신 정보와 공개 벤치마크의 코드 및 구현은 https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning에서 확인할 수 있습니다.
English
Humans possess spatial reasoning abilities that enable them to understand
spaces through multimodal observations, such as vision and sound. Large
multimodal reasoning models extend these abilities by learning to perceive and
reason, showing promising performance across diverse spatial tasks. However,
systematic reviews and publicly available benchmarks for these models remain
limited. In this survey, we provide a comprehensive review of multimodal
spatial reasoning tasks with large models, categorizing recent progress in
multimodal large language models (MLLMs) and introducing open benchmarks for
evaluation. We begin by outlining general spatial reasoning, focusing on
post-training techniques, explainability, and architecture. Beyond classical 2D
tasks, we examine spatial relationship reasoning, scene and layout
understanding, as well as visual question answering and grounding in 3D space.
We also review advances in embodied AI, including vision-language navigation
and action models. Additionally, we consider emerging modalities such as audio
and egocentric video, which contribute to novel spatial understanding through
new sensors. We believe this survey establishes a solid foundation and offers
insights into the growing field of multimodal spatial reasoning. Updated
information about this survey, codes and implementation of the open benchmarks
can be found at https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.