ChatPaper.aiChatPaper

Многомодальное пространственное мышление в эпоху больших моделей: обзор и эталонные тесты

Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks

October 29, 2025
Авторы: Xu Zheng, Zihao Dongfang, Lutao Jiang, Boyuan Zheng, Yulong Guo, Zhenquan Zhang, Giuliano Albanese, Runyi Yang, Mengjiao Ma, Zixin Zhang, Chenfei Liao, Dingcheng Zhen, Yuanhuiyi Lyu, Yuqian Fu, Bin Ren, Linfeng Zhang, Danda Pani Paudel, Nicu Sebe, Luc Van Gool, Xuming Hu
cs.AI

Аннотация

Люди обладают способностями к пространственному мышлению, которые позволяют им понимать пространства через мультимодальные наблюдения, такие как зрение и слух. Крупные мультимодальные модели рассуждений расширяют эти способности, обучаясь воспринимать и анализировать, демонстрируя многообещающие результаты в разнообразных пространственных задачах. Однако систематические обзоры и общедоступные бенчмарки для таких моделей остаются ограниченными. В данном обзоре мы представляем всесторонний анализ задач мультимодального пространственного мышления с использованием больших моделей, классифицируя последние достижения в мультимодальных больших языковых моделях (MLLM) и представляя открытые бенчмарки для оценки. Мы начинаем с описания общего пространственного мышления, уделяя внимание методам пост-обучения, интерпретируемости и архитектуре. Помимо классических 2D-задач, мы рассматриваем анализ пространственных отношений, понимание сцен и компоновки, а также визуальный вопросно-ответный анализ и локализацию в 3D-пространстве. Также мы анализируем достижения в воплощенном ИИ, включая навигацию и модели действий на основе зрения и языка. Кроме того, мы рассматриваем emerging модальности, такие как аудио и эгоцентрическое видео, которые вносят вклад в новое понимание пространства благодаря новым сенсорам. Мы считаем, что этот обзор закладывает прочную основу и предлагает ценные insights для развивающейся области мультимодального пространственного мышления. Актуальная информация об этом обзоре, коды и реализации открытых бенчмарков доступны по адресу https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.
English
Humans possess spatial reasoning abilities that enable them to understand spaces through multimodal observations, such as vision and sound. Large multimodal reasoning models extend these abilities by learning to perceive and reason, showing promising performance across diverse spatial tasks. However, systematic reviews and publicly available benchmarks for these models remain limited. In this survey, we provide a comprehensive review of multimodal spatial reasoning tasks with large models, categorizing recent progress in multimodal large language models (MLLMs) and introducing open benchmarks for evaluation. We begin by outlining general spatial reasoning, focusing on post-training techniques, explainability, and architecture. Beyond classical 2D tasks, we examine spatial relationship reasoning, scene and layout understanding, as well as visual question answering and grounding in 3D space. We also review advances in embodied AI, including vision-language navigation and action models. Additionally, we consider emerging modalities such as audio and egocentric video, which contribute to novel spatial understanding through new sensors. We believe this survey establishes a solid foundation and offers insights into the growing field of multimodal spatial reasoning. Updated information about this survey, codes and implementation of the open benchmarks can be found at https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.
PDF161December 2, 2025