Percepción, Razonamiento, Pensamiento y Planificación: Una Revisión sobre Modelos de Razonamiento Multimodal a Gran EscalaPerception, Reason, Think, and Plan: A Survey on Large Multimodal
Reasoning Models
El razonamiento yace en el corazón de la inteligencia, moldeando la capacidad para tomar decisiones, sacar conclusiones y generalizar entre dominios. En la inteligencia artificial, a medida que los sistemas operan cada vez más en entornos abiertos, inciertos y multimodales, el razonamiento se vuelve esencial para habilitar comportamientos robustos y adaptativos. Los Modelos de Razonamiento Multimodal a Gran Escala (LMRMs, por sus siglas en inglés) han surgido como un paradigma prometedor, integrando modalidades como texto, imágenes, audio y video para apoyar capacidades de razonamiento complejas, con el objetivo de lograr una percepción integral, una comprensión precisa y un razonamiento profundo. A medida que avanza la investigación, el razonamiento multimodal ha evolucionado rápidamente desde pipelines modulares impulsados por la percepción hacia frameworks unificados centrados en el lenguaje que ofrecen una comprensión más coherente entre modalidades. Si bien el ajuste por instrucciones y el aprendizaje por refuerzo han mejorado el razonamiento de los modelos, persisten desafíos significativos en la generalización omni-modal, la profundidad del razonamiento y el comportamiento agéntico. Para abordar estos problemas, presentamos una encuesta estructurada y exhaustiva de la investigación en razonamiento multimodal, organizada en torno a una hoja de ruta de desarrollo en cuatro etapas que refleja las filosofías de diseño cambiantes del campo y las capacidades emergentes. Primero, revisamos los esfuerzos iniciales basados en módulos específicos para tareas, donde el razonamiento estaba implícitamente integrado en las etapas de representación, alineación y fusión. Luego, examinamos enfoques recientes que unifican el razonamiento en LLMs multimodales, con avances como la Cadena de Pensamiento Multimodal (MCoT) y el aprendizaje por refuerzo multimodal que permiten cadenas de razonamiento más ricas y estructuradas. Finalmente, basándonos en insights empíricos de benchmarks desafiantes y casos experimentales como OpenAI O3 y O4-mini, discutimos la dirección conceptual de los modelos nativos de razonamiento multimodal a gran escala (N-LMRMs), que buscan apoyar el razonamiento y la planificación escalables, agénticos y adaptativos en entornos complejos del mundo real.