Percepción, Razonamiento, Pensamiento y Planificación: Una Revisión sobre Modelos de Razonamiento Multimodal a Gran Escala

Resumen

El razonamiento yace en el corazón de la inteligencia, moldeando la capacidad para tomar decisiones, sacar conclusiones y generalizar entre dominios. En la inteligencia artificial, a medida que los sistemas operan cada vez más en entornos abiertos, inciertos y multimodales, el razonamiento se vuelve esencial para habilitar comportamientos robustos y adaptativos. Los Modelos de Razonamiento Multimodal a Gran Escala (LMRMs, por sus siglas en inglés) han surgido como un paradigma prometedor, integrando modalidades como texto, imágenes, audio y video para apoyar capacidades de razonamiento complejas, con el objetivo de lograr una percepción integral, una comprensión precisa y un razonamiento profundo. A medida que avanza la investigación, el razonamiento multimodal ha evolucionado rápidamente desde pipelines modulares impulsados por la percepción hacia frameworks unificados centrados en el lenguaje que ofrecen una comprensión más coherente entre modalidades. Si bien el ajuste por instrucciones y el aprendizaje por refuerzo han mejorado el razonamiento de los modelos, persisten desafíos significativos en la generalización omni-modal, la profundidad del razonamiento y el comportamiento agéntico. Para abordar estos problemas, presentamos una encuesta estructurada y exhaustiva de la investigación en razonamiento multimodal, organizada en torno a una hoja de ruta de desarrollo en cuatro etapas que refleja las filosofías de diseño cambiantes del campo y las capacidades emergentes. Primero, revisamos los esfuerzos iniciales basados en módulos específicos para tareas, donde el razonamiento estaba implícitamente integrado en las etapas de representación, alineación y fusión. Luego, examinamos enfoques recientes que unifican el razonamiento en LLMs multimodales, con avances como la Cadena de Pensamiento Multimodal (MCoT) y el aprendizaje por refuerzo multimodal que permiten cadenas de razonamiento más ricas y estructuradas. Finalmente, basándonos en insights empíricos de benchmarks desafiantes y casos experimentales como OpenAI O3 y O4-mini, discutimos la dirección conceptual de los modelos nativos de razonamiento multimodal a gran escala (N-LMRMs), que buscan apoyar el razonamiento y la planificación escalables, agénticos y adaptativos en entornos complejos del mundo real.

English

Reasoning lies at the heart of intelligence, shaping the ability to make decisions, draw conclusions, and generalize across domains. In artificial intelligence, as systems increasingly operate in open, uncertain, and multimodal environments, reasoning becomes essential for enabling robust and adaptive behavior. Large Multimodal Reasoning Models (LMRMs) have emerged as a promising paradigm, integrating modalities such as text, images, audio, and video to support complex reasoning capabilities and aiming to achieve comprehensive perception, precise understanding, and deep reasoning. As research advances, multimodal reasoning has rapidly evolved from modular, perception-driven pipelines to unified, language-centric frameworks that offer more coherent cross-modal understanding. While instruction tuning and reinforcement learning have improved model reasoning, significant challenges remain in omni-modal generalization, reasoning depth, and agentic behavior. To address these issues, we present a comprehensive and structured survey of multimodal reasoning research, organized around a four-stage developmental roadmap that reflects the field's shifting design philosophies and emerging capabilities. First, we review early efforts based on task-specific modules, where reasoning was implicitly embedded across stages of representation, alignment, and fusion. Next, we examine recent approaches that unify reasoning into multimodal LLMs, with advances such as Multimodal Chain-of-Thought (MCoT) and multimodal reinforcement learning enabling richer and more structured reasoning chains. Finally, drawing on empirical insights from challenging benchmarks and experimental cases of OpenAI O3 and O4-mini, we discuss the conceptual direction of native large multimodal reasoning models (N-LMRMs), which aim to support scalable, agentic, and adaptive reasoning and planning in complex, real-world environments.

Percepción, Razonamiento, Pensamiento y Planificación: Una Revisión sobre Modelos de Razonamiento Multimodal a Gran Escala

Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models

Resumen

Support