ChatPaper.aiChatPaper

Meerdere-modus Ruimtelijk Redeneren in het Tijdperk van Grote Modellen: Een Overzicht en Maatstaven

Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks

October 29, 2025
Auteurs: Xu Zheng, Zihao Dongfang, Lutao Jiang, Boyuan Zheng, Yulong Guo, Zhenquan Zhang, Giuliano Albanese, Runyi Yang, Mengjiao Ma, Zixin Zhang, Chenfei Liao, Dingcheng Zhen, Yuanhuiyi Lyu, Yuqian Fu, Bin Ren, Linfeng Zhang, Danda Pani Paudel, Nicu Sebe, Luc Van Gool, Xuming Hu
cs.AI

Samenvatting

Mensen beschikken over ruimtelijk redeneervermogen dat hen in staat stelt om ruimtes te begrijpen door middel van multimodale waarnemingen, zoals zicht en geluid. Grote multimodale redeneermodellen breiden deze vaardigheden uit door te leren waarnemen en redeneren, waarbij ze veelbelovende prestaties laten zien bij diverse ruimtelijke taken. Systematische overzichten en vrij toegankelijke benchmarks voor deze modellen blijven echter beperkt. In dit overzicht bieden we een uitgebreide evaluatie van multimodale ruimtelijke redeneertaken met grote modellen, categoriseren we recente vooruitgang in multimodale grote taalmodellen (MLLM's) en introduceren we open benchmarks voor evaluatie. We beginnen met een schets van algemeen ruimtelijk redeneren, met focus op post-trainingstechnieken, verklaarbaarheid en architectuur. Voorbij klassieke 2D-taken onderzoeken we het redeneren over ruimtelijke relaties, begrip van scènes en indelingen, evenals visuele vraagbeantwoording en grounding in 3D-ruimte. We evalueren ook vooruitgang in embodied AI, inclusief visie-taalnavigatie en actiemodellen. Daarnaast beschouwen we opkomende modaliteiten zoals audio en egocentrische video, die bijdragen aan nieuw ruimtelijk begrip door nieuwe sensoren. Wij zijn van mening dat dit overzicht een solide basis legt en inzichten biedt in het groeiende veld van multimodaal ruimtelijk redeneren. Geüpdatete informatie over dit overzicht, codes en implementatie van de open benchmarks zijn te vinden op https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.
English
Humans possess spatial reasoning abilities that enable them to understand spaces through multimodal observations, such as vision and sound. Large multimodal reasoning models extend these abilities by learning to perceive and reason, showing promising performance across diverse spatial tasks. However, systematic reviews and publicly available benchmarks for these models remain limited. In this survey, we provide a comprehensive review of multimodal spatial reasoning tasks with large models, categorizing recent progress in multimodal large language models (MLLMs) and introducing open benchmarks for evaluation. We begin by outlining general spatial reasoning, focusing on post-training techniques, explainability, and architecture. Beyond classical 2D tasks, we examine spatial relationship reasoning, scene and layout understanding, as well as visual question answering and grounding in 3D space. We also review advances in embodied AI, including vision-language navigation and action models. Additionally, we consider emerging modalities such as audio and egocentric video, which contribute to novel spatial understanding through new sensors. We believe this survey establishes a solid foundation and offers insights into the growing field of multimodal spatial reasoning. Updated information about this survey, codes and implementation of the open benchmarks can be found at https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.
PDF161December 2, 2025