Pensar con imágenes para el razonamiento multimodal: Fundamentos, métodos y fronteras futuras
Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers
June 30, 2025
Autores: Zhaochen Su, Peng Xia, Hangyu Guo, Zhenhua Liu, Yan Ma, Xiaoye Qu, Jiaqi Liu, Yanshu Li, Kaide Zeng, Zhengyuan Yang, Linjie Li, Yu Cheng, Heng Ji, Junxian He, Yi R. Fung
cs.AI
Resumen
Los avances recientes en el razonamiento multimodal han sido impulsados significativamente por el paradigma de la Cadena de Pensamiento (CoT, por sus siglas en inglés) textual, en el que los modelos realizan razonamientos dentro del lenguaje. Sin embargo, este enfoque centrado en el texto trata la visión como un contexto inicial estático, creando una "brecha semántica" fundamental entre los datos perceptivos ricos y el pensamiento simbólico discreto. La cognición humana a menudo trasciende el lenguaje, utilizando la visión como una pizarra mental dinámica. Una evolución similar está ocurriendo ahora en la inteligencia artificial, marcando un cambio de paradigma fundamental desde modelos que simplemente piensan sobre imágenes hacia aquellos que pueden pensar verdaderamente con imágenes. Este paradigma emergente se caracteriza por modelos que aprovechan la información visual como pasos intermedios en su proceso de pensamiento, transformando la visión de una entrada pasiva en un espacio cognitivo dinámico y manipulable. En este estudio, trazamos esta evolución de la inteligencia a lo largo de una trayectoria de creciente autonomía cognitiva, que se desarrolla en tres etapas clave: desde la exploración de herramientas externas, pasando por la manipulación programática, hasta la imaginación intrínseca. Para estructurar este campo en rápida evolución, nuestro estudio realiza cuatro contribuciones clave. (1) Establecemos los principios fundamentales del paradigma de pensar con imágenes y su marco de tres etapas. (2) Ofrecemos una revisión exhaustiva de los métodos centrales que caracterizan cada etapa de esta hoja de ruta. (3) Analizamos el panorama crítico de los puntos de referencia de evaluación y las aplicaciones transformadoras. (4) Identificamos desafíos significativos y esbozamos direcciones futuras prometedoras. Al proporcionar esta visión estructurada, nuestro objetivo es ofrecer una hoja de ruta clara para futuras investigaciones hacia una IA multimodal más poderosa y alineada con la cognición humana.
English
Recent progress in multimodal reasoning has been significantly advanced by
textual Chain-of-Thought (CoT), a paradigm where models conduct reasoning
within language. This text-centric approach, however, treats vision as a
static, initial context, creating a fundamental "semantic gap" between rich
perceptual data and discrete symbolic thought. Human cognition often transcends
language, utilizing vision as a dynamic mental sketchpad. A similar evolution
is now unfolding in AI, marking a fundamental paradigm shift from models that
merely think about images to those that can truly think with images. This
emerging paradigm is characterized by models leveraging visual information as
intermediate steps in their thought process, transforming vision from a passive
input into a dynamic, manipulable cognitive workspace. In this survey, we chart
this evolution of intelligence along a trajectory of increasing cognitive
autonomy, which unfolds across three key stages: from external tool
exploration, through programmatic manipulation, to intrinsic imagination. To
structure this rapidly evolving field, our survey makes four key contributions.
(1) We establish the foundational principles of the think with image paradigm
and its three-stage framework. (2) We provide a comprehensive review of the
core methods that characterize each stage of this roadmap. (3) We analyze the
critical landscape of evaluation benchmarks and transformative applications.
(4) We identify significant challenges and outline promising future directions.
By providing this structured overview, we aim to offer a clear roadmap for
future research towards more powerful and human-aligned multimodal AI.