Multimodales räumliches Denken im Zeitalter großer Modelle: Ein Überblick und Benchmark-Tests
Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks
October 29, 2025
papers.authors: Xu Zheng, Zihao Dongfang, Lutao Jiang, Boyuan Zheng, Yulong Guo, Zhenquan Zhang, Giuliano Albanese, Runyi Yang, Mengjiao Ma, Zixin Zhang, Chenfei Liao, Dingcheng Zhen, Yuanhuiyi Lyu, Yuqian Fu, Bin Ren, Linfeng Zhang, Danda Pani Paudel, Nicu Sebe, Luc Van Gool, Xuming Hu
cs.AI
papers.abstract
Menschen verfügen über räumliche Denkfähigkeiten, die es ihnen ermöglichen, Räume durch multimodale Beobachtungen wie Sehen und Hören zu verstehen. Große multimodale Reasoning-Modelle erweitern diese Fähigkeiten, indem sie Wahrnehmung und logisches Schlussfolgern erlernen, und zeigen vielversprechende Leistungen bei verschiedenen räumlichen Aufgaben. Systematische Übersichtsarbeiten und öffentlich zugängliche Benchmarks für diese Modelle sind jedoch nach wie vor begrenzt. In dieser Übersichtsarbeit bieten wir eine umfassende Betrachtung multimodaler räumlicher Reasoning-Aufgaben mit großen Modellen, kategorieren jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) und führen offene Benchmarks zur Evaluation ein. Wir beginnen mit einer Darstellung des allgemeinen räumlichen Reasoning unter besonderer Berücksichtigung von Nachtrainierungstechniken, Erklärbarkeit und Architektur. Über klassische 2D-Aufgaben hinaus untersuchen wir das Reasoning räumlicher Beziehungen, Szenen- und Layoutverständnis sowie visuelle Fragebeantwortung und Verankerung im 3D-Raum. Ebenfalls betrachten wir Fortschritte im embodied AI, einschließlich visuell-sprachlicher Navigations- und Aktionsmodelle. Zusätzlich berücksichtigen wir aufkommende Modalitäten wie Audio und egocentrische Videos, die durch neue Sensoren zu neuartigem räumlichen Verständnis beitragen. Wir sind überzeugt, dass diese Übersichtsarbeit eine solide Grundlage schafft und Einblicke in das wachsende Feld des multimodalen räumlichen Reasoning bietet. Aktualisierte Informationen zu dieser Übersichtsarbeit, Codes und Implementierungen der offenen Benchmarks sind unter https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning verfügbar.
English
Humans possess spatial reasoning abilities that enable them to understand
spaces through multimodal observations, such as vision and sound. Large
multimodal reasoning models extend these abilities by learning to perceive and
reason, showing promising performance across diverse spatial tasks. However,
systematic reviews and publicly available benchmarks for these models remain
limited. In this survey, we provide a comprehensive review of multimodal
spatial reasoning tasks with large models, categorizing recent progress in
multimodal large language models (MLLMs) and introducing open benchmarks for
evaluation. We begin by outlining general spatial reasoning, focusing on
post-training techniques, explainability, and architecture. Beyond classical 2D
tasks, we examine spatial relationship reasoning, scene and layout
understanding, as well as visual question answering and grounding in 3D space.
We also review advances in embodied AI, including vision-language navigation
and action models. Additionally, we consider emerging modalities such as audio
and egocentric video, which contribute to novel spatial understanding through
new sensors. We believe this survey establishes a solid foundation and offers
insights into the growing field of multimodal spatial reasoning. Updated
information about this survey, codes and implementation of the open benchmarks
can be found at https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.