Разум с глазами: от языковых рассуждений к мультимодальным рассуждениям
Mind with Eyes: from Language Reasoning to Multimodal Reasoning
March 23, 2025
Авторы: Zhiyu Lin, Yifei Gao, Xian Zhao, Yunfan Yang, Jitao Sang
cs.AI
Аннотация
Языковые модели недавно вышли на уровень рассуждений, однако именно через мультимодальное рассуждение мы можем полностью раскрыть потенциал для достижения более всеобъемлющих, человеко-подобных когнитивных способностей. Данный обзор предлагает систематический анализ современных подходов к мультимодальному рассуждению, классифицируя их на два уровня: языко-центричное мультимодальное рассуждение и совместное мультимодальное рассуждение. Первый включает однократное визуальное восприятие и активное визуальное восприятие, где зрение в основном играет вспомогательную роль в языковом рассуждении. Второй предполагает генерацию действий и обновление состояния в процессе рассуждения, что позволяет более динамичное взаимодействие между модальностями. Кроме того, мы анализируем техническую эволюцию этих методов, обсуждаем их внутренние проблемы и представляем ключевые эталонные задачи и метрики для оценки производительности мультимодального рассуждения. Наконец, мы предлагаем взгляды на будущие направления исследований с двух перспектив: (i) от визуально-языкового рассуждения к омнимодальному рассуждению и (ii) от мультимодального рассуждения к мультимодальным агентам. Этот обзор направлен на предоставление структурированного обзора, который вдохновит дальнейшие достижения в исследованиях мультимодального рассуждения.
English
Language models have recently advanced into the realm of reasoning, yet it is
through multimodal reasoning that we can fully unlock the potential to achieve
more comprehensive, human-like cognitive capabilities. This survey provides a
systematic overview of the recent multimodal reasoning approaches, categorizing
them into two levels: language-centric multimodal reasoning and collaborative
multimodal reasoning. The former encompasses one-pass visual perception and
active visual perception, where vision primarily serves a supporting role in
language reasoning. The latter involves action generation and state update
within reasoning process, enabling a more dynamic interaction between
modalities. Furthermore, we analyze the technical evolution of these methods,
discuss their inherent challenges, and introduce key benchmark tasks and
evaluation metrics for assessing multimodal reasoning performance. Finally, we
provide insights into future research directions from the following two
perspectives: (i) from visual-language reasoning to omnimodal reasoning and
(ii) from multimodal reasoning to multimodal agents. This survey aims to
provide a structured overview that will inspire further advancements in
multimodal reasoning research.Summary
AI-Generated Summary