Descompasso Cognitivo em Modelos de Linguagem Multimodais de Grande Escala para Compreensão de Símbolos Discretos

Resumo

Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tenham alcançado sucesso notável na interpretação de cenas naturais, sua capacidade de processar símbolos discretos – os blocos fundamentais da cognição humana – permanece uma questão crítica em aberto. Diferentemente de dados visuais contínuos, símbolos como fórmulas matemáticas, estruturas químicas e caracteres linguísticos exigem uma interpretação mais profunda e precisa. Este artigo introduz um benchmark abrangente para avaliar como os MLLMs de ponta navegam por esses "espaços semânticos discretos" em cinco domínios: linguagem, cultura, matemática, física e química. Nossa investigação revela um fenômeno contraintuitivo: os modelos frequentemente falham no reconhecimento básico de símbolos, mas têm sucesso em tarefas de raciocínio complexo, sugerindo que eles dependem mais de probabilidade linguística do que de uma verdadeira percepção visual. Ao expor esse "descompasso cognitivo", destacamos uma lacuna significativa nas capacidades atuais da IA: a dificuldade em perceber e compreender verdadeiramente as linguagens simbólicas que fundamentam a descoberta científica e o pensamento abstrato. Este trabalho oferece um roteiro para o desenvolvimento de sistemas inteligentes mais rigorosos e alinhados com a cognição humana.

English

While Multimodal Large Language Models (MLLMs) have achieved remarkable success in interpreting natural scenes, their ability to process discrete symbols -- the fundamental building blocks of human cognition -- remains a critical open question. Unlike continuous visual data, symbols such as mathematical formulas, chemical structures, and linguistic characters require precise, deeper interpretation. This paper introduces a comprehensive benchmark to evaluate how top-tier MLLMs navigate these "discrete semantic spaces" across five domains: language, culture, mathematics, physics, and chemistry. Our investigation uncovers a counterintuitive phenomenon: models often fail at basic symbol recognition yet succeed in complex reasoning tasks, suggesting they rely on linguistic probability rather than true visual perception. By exposing this "cognitive mismatch", we highlight a significant gap in current AI capabilities: the struggle to truly perceive and understand the symbolic languages that underpin scientific discovery and abstract thought. This work offers a roadmap for developing more rigorous, human-aligned intelligent systems.

Descompasso Cognitivo em Modelos de Linguagem Multimodais de Grande Escala para Compreensão de Símbolos Discretos

Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding

Resumo

Support