ChatPaper.aiChatPaper

L'esprit doté d'yeux : du raisonnement linguistique au raisonnement multimodal

Mind with Eyes: from Language Reasoning to Multimodal Reasoning

March 23, 2025
Auteurs: Zhiyu Lin, Yifei Gao, Xian Zhao, Yunfan Yang, Jitao Sang
cs.AI

Résumé

Les modèles de langage ont récemment progressé dans le domaine du raisonnement, mais c'est à travers le raisonnement multimodal que nous pouvons pleinement débloquer le potentiel pour atteindre des capacités cognitives plus complètes, semblables à celles des humains. Cette étude propose un aperçu systématique des approches récentes en matière de raisonnement multimodal, les classant en deux niveaux : le raisonnement multimodal centré sur le langage et le raisonnement multimodal collaboratif. Le premier englobe la perception visuelle en une seule passe et la perception visuelle active, où la vision joue principalement un rôle de soutien dans le raisonnement linguistique. Le second implique la génération d'actions et la mise à jour d'état au sein du processus de raisonnement, permettant une interaction plus dynamique entre les modalités. De plus, nous analysons l'évolution technique de ces méthodes, discutons de leurs défis inhérents et introduisons les principales tâches de référence et les métriques d'évaluation pour mesurer la performance en raisonnement multimodal. Enfin, nous offrons des perspectives sur les futures directions de recherche à partir des deux points de vue suivants : (i) du raisonnement visuel-langage au raisonnement omnimodal et (ii) du raisonnement multimodal aux agents multimodaux. Cette étude vise à fournir un aperçu structuré qui inspirera de nouvelles avancées dans la recherche sur le raisonnement multimodal.
English
Language models have recently advanced into the realm of reasoning, yet it is through multimodal reasoning that we can fully unlock the potential to achieve more comprehensive, human-like cognitive capabilities. This survey provides a systematic overview of the recent multimodal reasoning approaches, categorizing them into two levels: language-centric multimodal reasoning and collaborative multimodal reasoning. The former encompasses one-pass visual perception and active visual perception, where vision primarily serves a supporting role in language reasoning. The latter involves action generation and state update within reasoning process, enabling a more dynamic interaction between modalities. Furthermore, we analyze the technical evolution of these methods, discuss their inherent challenges, and introduce key benchmark tasks and evaluation metrics for assessing multimodal reasoning performance. Finally, we provide insights into future research directions from the following two perspectives: (i) from visual-language reasoning to omnimodal reasoning and (ii) from multimodal reasoning to multimodal agents. This survey aims to provide a structured overview that will inspire further advancements in multimodal reasoning research.

Summary

AI-Generated Summary

PDF32March 25, 2025