L'esprit doté d'yeux : du raisonnement linguistique au raisonnement multimodal
Mind with Eyes: from Language Reasoning to Multimodal Reasoning
March 23, 2025
Auteurs: Zhiyu Lin, Yifei Gao, Xian Zhao, Yunfan Yang, Jitao Sang
cs.AI
Résumé
Les modèles de langage ont récemment progressé dans le domaine du raisonnement, mais c'est à travers le raisonnement multimodal que nous pouvons pleinement débloquer le potentiel pour atteindre des capacités cognitives plus complètes, semblables à celles des humains. Cette étude propose un aperçu systématique des approches récentes en matière de raisonnement multimodal, les classant en deux niveaux : le raisonnement multimodal centré sur le langage et le raisonnement multimodal collaboratif. Le premier englobe la perception visuelle en une seule passe et la perception visuelle active, où la vision joue principalement un rôle de soutien dans le raisonnement linguistique. Le second implique la génération d'actions et la mise à jour d'état au sein du processus de raisonnement, permettant une interaction plus dynamique entre les modalités. De plus, nous analysons l'évolution technique de ces méthodes, discutons de leurs défis inhérents et introduisons les principales tâches de référence et les métriques d'évaluation pour mesurer la performance en raisonnement multimodal. Enfin, nous offrons des perspectives sur les futures directions de recherche à partir des deux points de vue suivants : (i) du raisonnement visuel-langage au raisonnement omnimodal et (ii) du raisonnement multimodal aux agents multimodaux. Cette étude vise à fournir un aperçu structuré qui inspirera de nouvelles avancées dans la recherche sur le raisonnement multimodal.
English
Language models have recently advanced into the realm of reasoning, yet it is
through multimodal reasoning that we can fully unlock the potential to achieve
more comprehensive, human-like cognitive capabilities. This survey provides a
systematic overview of the recent multimodal reasoning approaches, categorizing
them into two levels: language-centric multimodal reasoning and collaborative
multimodal reasoning. The former encompasses one-pass visual perception and
active visual perception, where vision primarily serves a supporting role in
language reasoning. The latter involves action generation and state update
within reasoning process, enabling a more dynamic interaction between
modalities. Furthermore, we analyze the technical evolution of these methods,
discuss their inherent challenges, and introduce key benchmark tasks and
evaluation metrics for assessing multimodal reasoning performance. Finally, we
provide insights into future research directions from the following two
perspectives: (i) from visual-language reasoning to omnimodal reasoning and
(ii) from multimodal reasoning to multimodal agents. This survey aims to
provide a structured overview that will inspire further advancements in
multimodal reasoning research.Summary
AI-Generated Summary