Raciocínio Espacial Multimodal na Era dos Grandes Modelos: Uma Revisão e Benchmarkings
Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks
October 29, 2025
Autores: Xu Zheng, Zihao Dongfang, Lutao Jiang, Boyuan Zheng, Yulong Guo, Zhenquan Zhang, Giuliano Albanese, Runyi Yang, Mengjiao Ma, Zixin Zhang, Chenfei Liao, Dingcheng Zhen, Yuanhuiyi Lyu, Yuqian Fu, Bin Ren, Linfeng Zhang, Danda Pani Paudel, Nicu Sebe, Luc Van Gool, Xuming Hu
cs.AI
Resumo
Os seres humanos possuem habilidades de raciocínio espacial que lhes permitem compreender espaços por meio de observações multimodais, como visão e som. Os grandes modelos de raciocínio multimodal estendem essas habilidades ao aprender a perceber e raciocinar, demonstrando desempenho promissor em diversas tarefas espaciais. No entanto, revisões sistemáticas e benchmarks publicamente disponíveis para esses modelos ainda são limitados. Nesta pesquisa, fornecemos uma revisão abrangente de tarefas de raciocínio espacial multimodal com grandes modelos, categorizando os progressos recentes em modelos de linguagem grandes multimodais (MLLMs) e introduzindo benchmarks abertos para avaliação. Começamos delineando o raciocínio espacial geral, com foco em técnicas de pós-treinamento, explicabilidade e arquitetura. Além das tarefas 2D clássicas, examinamos o raciocínio sobre relações espaciais, a compreensão de cenas e layouts, bem como a resposta a perguntas visuais e a fundamentação no espaço 3D. Também revisamos avanços em IA incorporada, incluindo modelos de navegação e ação visuo-linguísticos. Adicionalmente, consideramos modalidades emergentes, como áudio e vídeo egocêntrico, que contribuem para uma nova compreensão espacial por meio de novos sensores. Acreditamos que esta pesquisa estabelece uma base sólida e oferece insights sobre o crescente campo do raciocínio espacial multimodal. Informações atualizadas sobre esta pesquisa, códigos e implementação dos benchmarks abertos podem ser encontrados em https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.
English
Humans possess spatial reasoning abilities that enable them to understand
spaces through multimodal observations, such as vision and sound. Large
multimodal reasoning models extend these abilities by learning to perceive and
reason, showing promising performance across diverse spatial tasks. However,
systematic reviews and publicly available benchmarks for these models remain
limited. In this survey, we provide a comprehensive review of multimodal
spatial reasoning tasks with large models, categorizing recent progress in
multimodal large language models (MLLMs) and introducing open benchmarks for
evaluation. We begin by outlining general spatial reasoning, focusing on
post-training techniques, explainability, and architecture. Beyond classical 2D
tasks, we examine spatial relationship reasoning, scene and layout
understanding, as well as visual question answering and grounding in 3D space.
We also review advances in embodied AI, including vision-language navigation
and action models. Additionally, we consider emerging modalities such as audio
and egocentric video, which contribute to novel spatial understanding through
new sensors. We believe this survey establishes a solid foundation and offers
insights into the growing field of multimodal spatial reasoning. Updated
information about this survey, codes and implementation of the open benchmarks
can be found at https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.