Mente con Ojos: del Razonamiento Lingüístico al Razonamiento Multimodal
Mind with Eyes: from Language Reasoning to Multimodal Reasoning
March 23, 2025
Autores: Zhiyu Lin, Yifei Gao, Xian Zhao, Yunfan Yang, Jitao Sang
cs.AI
Resumen
Los modelos de lenguaje han avanzado recientemente hacia el ámbito del razonamiento, pero es a través del razonamiento multimodal que podemos desbloquear plenamente el potencial para lograr capacidades cognitivas más completas y similares a las humanas. Esta revisión ofrece una visión sistemática de los enfoques recientes de razonamiento multimodal, categorizándolos en dos niveles: razonamiento multimodal centrado en el lenguaje y razonamiento multimodal colaborativo. El primero abarca la percepción visual de un solo paso y la percepción visual activa, donde la visión desempeña principalmente un papel de apoyo en el razonamiento del lenguaje. El segundo implica la generación de acciones y la actualización de estados dentro del proceso de razonamiento, permitiendo una interacción más dinámica entre las modalidades. Además, analizamos la evolución técnica de estos métodos, discutimos sus desafíos inherentes e introducimos tareas de referencia clave y métricas de evaluación para valorar el rendimiento del razonamiento multimodal. Finalmente, ofrecemos perspectivas sobre futuras direcciones de investigación desde los siguientes dos puntos de vista: (i) del razonamiento visual-lingüístico al razonamiento omnimodal y (ii) del razonamiento multimodal a los agentes multimodales. Esta revisión tiene como objetivo proporcionar una visión estructurada que inspire avances adicionales en la investigación del razonamiento multimodal.
English
Language models have recently advanced into the realm of reasoning, yet it is
through multimodal reasoning that we can fully unlock the potential to achieve
more comprehensive, human-like cognitive capabilities. This survey provides a
systematic overview of the recent multimodal reasoning approaches, categorizing
them into two levels: language-centric multimodal reasoning and collaborative
multimodal reasoning. The former encompasses one-pass visual perception and
active visual perception, where vision primarily serves a supporting role in
language reasoning. The latter involves action generation and state update
within reasoning process, enabling a more dynamic interaction between
modalities. Furthermore, we analyze the technical evolution of these methods,
discuss their inherent challenges, and introduce key benchmark tasks and
evaluation metrics for assessing multimodal reasoning performance. Finally, we
provide insights into future research directions from the following two
perspectives: (i) from visual-language reasoning to omnimodal reasoning and
(ii) from multimodal reasoning to multimodal agents. This survey aims to
provide a structured overview that will inspire further advancements in
multimodal reasoning research.Summary
AI-Generated Summary