눈을 가진 마음: 언어 추론에서 다중모달 추론으로
Mind with Eyes: from Language Reasoning to Multimodal Reasoning
March 23, 2025
저자: Zhiyu Lin, Yifei Gao, Xian Zhao, Yunfan Yang, Jitao Sang
cs.AI
초록
언어 모델은 최근 추론 영역으로 진보했지만, 보다 포괄적이고 인간과 유사한 인지 능력을 달성하기 위해서는 다중모달 추론을 통해 그 잠재력을 완전히 발휘할 수 있습니다. 본 조사는 최근의 다중모달 추론 접근법을 체계적으로 개관하며, 이를 언어 중심 다중모달 추론과 협력적 다중모달 추론 두 가지 수준으로 분류합니다. 전자는 일회성 시각 인지와 능동적 시각 인지를 포함하며, 여기서 시각은 주로 언어 추론을 보조하는 역할을 합니다. 후자는 추론 과정 내에서의 행동 생성과 상태 업데이트를 포함하며, 이를 통해 모달리티 간의 보다 동적인 상호작용이 가능해집니다. 또한, 이러한 방법들의 기술적 진화를 분석하고, 내재된 과제를 논의하며, 다중모달 추론 성능을 평가하기 위한 주요 벤치마크 작업과 평가 지표를 소개합니다. 마지막으로, (i) 시각-언어 추론에서 오미모달 추론으로, (ii) 다중모달 추론에서 다중모달 에이전트로의 두 가지 관점에서 미래 연구 방향에 대한 통찰을 제공합니다. 본 조사는 다중모달 추론 연구의 추가 발전을 촉진할 구조화된 개관을 제공하는 것을 목표로 합니다.
English
Language models have recently advanced into the realm of reasoning, yet it is
through multimodal reasoning that we can fully unlock the potential to achieve
more comprehensive, human-like cognitive capabilities. This survey provides a
systematic overview of the recent multimodal reasoning approaches, categorizing
them into two levels: language-centric multimodal reasoning and collaborative
multimodal reasoning. The former encompasses one-pass visual perception and
active visual perception, where vision primarily serves a supporting role in
language reasoning. The latter involves action generation and state update
within reasoning process, enabling a more dynamic interaction between
modalities. Furthermore, we analyze the technical evolution of these methods,
discuss their inherent challenges, and introduce key benchmark tasks and
evaluation metrics for assessing multimodal reasoning performance. Finally, we
provide insights into future research directions from the following two
perspectives: (i) from visual-language reasoning to omnimodal reasoning and
(ii) from multimodal reasoning to multimodal agents. This survey aims to
provide a structured overview that will inspire further advancements in
multimodal reasoning research.Summary
AI-Generated Summary