ChatPaper.aiChatPaper

Geest met Ogen: van Taalredenering naar Multimodale Redenering

Mind with Eyes: from Language Reasoning to Multimodal Reasoning

March 23, 2025
Auteurs: Zhiyu Lin, Yifei Gao, Xian Zhao, Yunfan Yang, Jitao Sang
cs.AI

Samenvatting

Taalmodellen zijn recentelijk doorgedrongen tot het domein van redeneren, maar het is door multimodaal redeneren dat we het volledige potentieel kunnen ontsluiten om meer uitgebreide, mensachtige cognitieve capaciteiten te bereiken. Dit overzicht biedt een systematische beschrijving van de recente benaderingen voor multimodaal redeneren, waarbij ze worden ingedeeld in twee niveaus: taalgericht multimodaal redeneren en collaboratief multimodaal redeneren. Het eerste omvat éénmalige visuele waarneming en actieve visuele waarneming, waarbij visie voornamelijk een ondersteunende rol speelt in taalredenering. Het laatste omvat actiegeneratie en statusupdate binnen het redeneerproces, wat een dynamischere interactie tussen modaliteiten mogelijk maakt. Verder analyseren we de technologische evolutie van deze methoden, bespreken we hun inherente uitdagingen en introduceren we belangrijke benchmarktaken en evaluatiemetrics voor het beoordelen van multimodaal redeneervermogen. Tot slot bieden we inzichten in toekomstige onderzoeksrichtingen vanuit de volgende twee perspectieven: (i) van visueel-taalredeneren naar omnimodaal redeneren en (ii) van multimodaal redeneren naar multimodale agents. Dit overzicht beoogt een gestructureerd beeld te geven dat verdere vooruitgang in multimodaal redeneeronderzoek zal inspireren.
English
Language models have recently advanced into the realm of reasoning, yet it is through multimodal reasoning that we can fully unlock the potential to achieve more comprehensive, human-like cognitive capabilities. This survey provides a systematic overview of the recent multimodal reasoning approaches, categorizing them into two levels: language-centric multimodal reasoning and collaborative multimodal reasoning. The former encompasses one-pass visual perception and active visual perception, where vision primarily serves a supporting role in language reasoning. The latter involves action generation and state update within reasoning process, enabling a more dynamic interaction between modalities. Furthermore, we analyze the technical evolution of these methods, discuss their inherent challenges, and introduce key benchmark tasks and evaluation metrics for assessing multimodal reasoning performance. Finally, we provide insights into future research directions from the following two perspectives: (i) from visual-language reasoning to omnimodal reasoning and (ii) from multimodal reasoning to multimodal agents. This survey aims to provide a structured overview that will inspire further advancements in multimodal reasoning research.

Summary

AI-Generated Summary

PDF32March 25, 2025