Desajuste Cognitivo en Modelos de Lenguaje Grandes Multimodales para la Comprensión de Símbolos Discretos

Resumen

Si bien los Modelos de Lenguaje Grandes Multimodales (MLLMs, por sus siglas en inglés) han logrado un éxito notable en la interpretación de escenas naturales, su capacidad para procesar símbolos discretos —los componentes fundamentales de la cognición humana— sigue siendo una cuestión abierta y crítica. A diferencia de los datos visuales continuos, símbolos como fórmulas matemáticas, estructuras químicas y caracteres lingüísticos requieren una interpretación precisa y más profunda. Este artículo presenta un benchmark integral para evaluar cómo los MLLMs de primer nivel navegan por estos "espacios semánticos discretos" en cinco dominios: lenguaje, cultura, matemáticas, física y química. Nuestra investigación descubre un fenómeno contraintuitivo: los modelos a menudo fallan en el reconocimiento básico de símbolos, pero tienen éxito en tareas de razonamiento complejas, lo que sugiere que dependen de la probabilidad lingüística en lugar de una verdadera percepción visual. Al exponer este "desajuste cognitivo", destacamos una brecha significativa en las capacidades actuales de la IA: la dificultad para percibir y comprender verdaderamente los lenguajes simbólicos que sustentan el descubrimiento científico y el pensamiento abstracto. Este trabajo ofrece una hoja de ruta para desarrollar sistemas inteligentes más rigurosos y alineados con las capacidades humanas.

English

While Multimodal Large Language Models (MLLMs) have achieved remarkable success in interpreting natural scenes, their ability to process discrete symbols -- the fundamental building blocks of human cognition -- remains a critical open question. Unlike continuous visual data, symbols such as mathematical formulas, chemical structures, and linguistic characters require precise, deeper interpretation. This paper introduces a comprehensive benchmark to evaluate how top-tier MLLMs navigate these "discrete semantic spaces" across five domains: language, culture, mathematics, physics, and chemistry. Our investigation uncovers a counterintuitive phenomenon: models often fail at basic symbol recognition yet succeed in complex reasoning tasks, suggesting they rely on linguistic probability rather than true visual perception. By exposing this "cognitive mismatch", we highlight a significant gap in current AI capabilities: the struggle to truly perceive and understand the symbolic languages that underpin scientific discovery and abstract thought. This work offers a roadmap for developing more rigorous, human-aligned intelligent systems.

Desajuste Cognitivo en Modelos de Lenguaje Grandes Multimodales para la Comprensión de Símbolos Discretos

Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding

Resumen

Support