ChatPaper.aiChatPaper

Mente com Olhos: do Raciocínio Linguístico ao Raciocínio Multimodal

Mind with Eyes: from Language Reasoning to Multimodal Reasoning

March 23, 2025
Autores: Zhiyu Lin, Yifei Gao, Xian Zhao, Yunfan Yang, Jitao Sang
cs.AI

Resumo

Os modelos de linguagem avançaram recentemente para o domínio do raciocínio, mas é por meio do raciocínio multimodal que podemos desbloquear plenamente o potencial para alcançar capacidades cognitivas mais abrangentes e semelhantes às humanas. Esta pesquisa oferece uma visão sistemática das abordagens recentes de raciocínio multimodal, categorizando-as em dois níveis: raciocínio multimodal centrado na linguagem e raciocínio multimodal colaborativo. O primeiro abrange percepção visual de uma única passagem e percepção visual ativa, onde a visão desempenha principalmente um papel de suporte no raciocínio linguístico. O último envolve a geração de ações e a atualização de estado dentro do processo de raciocínio, permitindo uma interação mais dinâmica entre as modalidades. Além disso, analisamos a evolução técnica desses métodos, discutimos seus desafios inerentes e apresentamos tarefas de referência e métricas de avaliação essenciais para avaliar o desempenho do raciocínio multimodal. Por fim, oferecemos insights sobre direções futuras de pesquisa a partir das seguintes perspectivas: (i) do raciocínio visuo-linguístico para o raciocínio omnimodal e (ii) do raciocínio multimodal para agentes multimodais. Esta pesquisa visa fornecer uma visão estruturada que inspire avanços adicionais na pesquisa de raciocínio multimodal.
English
Language models have recently advanced into the realm of reasoning, yet it is through multimodal reasoning that we can fully unlock the potential to achieve more comprehensive, human-like cognitive capabilities. This survey provides a systematic overview of the recent multimodal reasoning approaches, categorizing them into two levels: language-centric multimodal reasoning and collaborative multimodal reasoning. The former encompasses one-pass visual perception and active visual perception, where vision primarily serves a supporting role in language reasoning. The latter involves action generation and state update within reasoning process, enabling a more dynamic interaction between modalities. Furthermore, we analyze the technical evolution of these methods, discuss their inherent challenges, and introduce key benchmark tasks and evaluation metrics for assessing multimodal reasoning performance. Finally, we provide insights into future research directions from the following two perspectives: (i) from visual-language reasoning to omnimodal reasoning and (ii) from multimodal reasoning to multimodal agents. This survey aims to provide a structured overview that will inspire further advancements in multimodal reasoning research.

Summary

AI-Generated Summary

PDF32March 25, 2025