Percepción, Razonamiento, Pensamiento y Planificación: Una Revisión sobre Modelos de Razonamiento Multimodal a Gran Escala
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models
May 8, 2025
Autores: Yunxin Li, Zhenyu Liu, Zitao Li, Xuanyu Zhang, Zhenran Xu, Xinyu Chen, Haoyuan Shi, Shenyuan Jiang, Xintong Wang, Jifang Wang, Shouzheng Huang, Xinping Zhao, Borui Jiang, Lanqing Hong, Longyue Wang, Zhuotao Tian, Baoxing Huai, Wenhan Luo, Weihua Luo, Zheng Zhang, Baotian Hu, Min Zhang
cs.AI
Resumen
El razonamiento yace en el corazón de la inteligencia, moldeando la capacidad para tomar decisiones, sacar conclusiones y generalizar entre dominios. En la inteligencia artificial, a medida que los sistemas operan cada vez más en entornos abiertos, inciertos y multimodales, el razonamiento se vuelve esencial para habilitar comportamientos robustos y adaptativos. Los Modelos de Razonamiento Multimodal a Gran Escala (LMRMs, por sus siglas en inglés) han surgido como un paradigma prometedor, integrando modalidades como texto, imágenes, audio y video para apoyar capacidades de razonamiento complejas, con el objetivo de lograr una percepción integral, una comprensión precisa y un razonamiento profundo. A medida que avanza la investigación, el razonamiento multimodal ha evolucionado rápidamente desde pipelines modulares impulsados por la percepción hacia frameworks unificados centrados en el lenguaje que ofrecen una comprensión más coherente entre modalidades. Si bien el ajuste por instrucciones y el aprendizaje por refuerzo han mejorado el razonamiento de los modelos, persisten desafíos significativos en la generalización omni-modal, la profundidad del razonamiento y el comportamiento agéntico. Para abordar estos problemas, presentamos una encuesta estructurada y exhaustiva de la investigación en razonamiento multimodal, organizada en torno a una hoja de ruta de desarrollo en cuatro etapas que refleja las filosofías de diseño cambiantes del campo y las capacidades emergentes. Primero, revisamos los esfuerzos iniciales basados en módulos específicos para tareas, donde el razonamiento estaba implícitamente integrado en las etapas de representación, alineación y fusión. Luego, examinamos enfoques recientes que unifican el razonamiento en LLMs multimodales, con avances como la Cadena de Pensamiento Multimodal (MCoT) y el aprendizaje por refuerzo multimodal que permiten cadenas de razonamiento más ricas y estructuradas. Finalmente, basándonos en insights empíricos de benchmarks desafiantes y casos experimentales como OpenAI O3 y O4-mini, discutimos la dirección conceptual de los modelos nativos de razonamiento multimodal a gran escala (N-LMRMs), que buscan apoyar el razonamiento y la planificación escalables, agénticos y adaptativos en entornos complejos del mundo real.
English
Reasoning lies at the heart of intelligence, shaping the ability to make
decisions, draw conclusions, and generalize across domains. In artificial
intelligence, as systems increasingly operate in open, uncertain, and
multimodal environments, reasoning becomes essential for enabling robust and
adaptive behavior. Large Multimodal Reasoning Models (LMRMs) have emerged as a
promising paradigm, integrating modalities such as text, images, audio, and
video to support complex reasoning capabilities and aiming to achieve
comprehensive perception, precise understanding, and deep reasoning. As
research advances, multimodal reasoning has rapidly evolved from modular,
perception-driven pipelines to unified, language-centric frameworks that offer
more coherent cross-modal understanding. While instruction tuning and
reinforcement learning have improved model reasoning, significant challenges
remain in omni-modal generalization, reasoning depth, and agentic behavior. To
address these issues, we present a comprehensive and structured survey of
multimodal reasoning research, organized around a four-stage developmental
roadmap that reflects the field's shifting design philosophies and emerging
capabilities. First, we review early efforts based on task-specific modules,
where reasoning was implicitly embedded across stages of representation,
alignment, and fusion. Next, we examine recent approaches that unify reasoning
into multimodal LLMs, with advances such as Multimodal Chain-of-Thought (MCoT)
and multimodal reinforcement learning enabling richer and more structured
reasoning chains. Finally, drawing on empirical insights from challenging
benchmarks and experimental cases of OpenAI O3 and O4-mini, we discuss the
conceptual direction of native large multimodal reasoning models (N-LMRMs),
which aim to support scalable, agentic, and adaptive reasoning and planning in
complex, real-world environments.Summary
AI-Generated Summary