Когнитивное несоответствие в мультимодальных больших языковых моделях при обработке дискретных символов
Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding
March 19, 2026
Авторы: Yinghui Li, Jiayi Kuang, Peng Xing, Daixian Liu, Junnan Dong, Shu-Yu Guo, Yangning Li, Qingyu Zhou, Wenhao Jiang, Hai-Tao Zheng, Ying Shen, Liang Lin, Philip S. Yu
cs.AI
Аннотация
Хотя мультимодальные большие языковые модели (МБЯМ) достигли значительных успехов в интерпретации естественных сцен, их способность обрабатывать дискретные символы — фундаментальные строительные блоки человеческого познания — остается важным открытым вопросом. В отличие от непрерывных визуальных данных, символы, такие как математические формулы, химические структуры и лингвистические знаки, требуют точной и более глубокой интерпретации. В данной статье представлен комплексный бенчмарк для оценки того, как ведущие МБЯМ ориентируются в этих «дискретных семантических пространствах» в пяти областях: язык, культура, математика, физика и химия. Наше исследование выявляет контринтуитивный феномен: модели часто не справляются с базовым распознаванием символов, но преуспевают в сложных задачах логического вывода, что свидетельствует об их зависимости от лингвистической вероятности, а не от истинного визуального восприятия. Обнажая этот «когнитивный разрыв», мы подчеркиваем существенный пробел в современных возможностях ИИ: неспособность по-настоящему воспринимать и понимать символические языки, лежащие в основе научных открытий и абстрактного мышления. Данная работа предлагает дорожную карту для создания более строгих интеллектуальных систем, согласованных с человеческим познанием.
English
While Multimodal Large Language Models (MLLMs) have achieved remarkable success in interpreting natural scenes, their ability to process discrete symbols -- the fundamental building blocks of human cognition -- remains a critical open question. Unlike continuous visual data, symbols such as mathematical formulas, chemical structures, and linguistic characters require precise, deeper interpretation. This paper introduces a comprehensive benchmark to evaluate how top-tier MLLMs navigate these "discrete semantic spaces" across five domains: language, culture, mathematics, physics, and chemistry. Our investigation uncovers a counterintuitive phenomenon: models often fail at basic symbol recognition yet succeed in complex reasoning tasks, suggesting they rely on linguistic probability rather than true visual perception. By exposing this "cognitive mismatch", we highlight a significant gap in current AI capabilities: the struggle to truly perceive and understand the symbolic languages that underpin scientific discovery and abstract thought. This work offers a roadmap for developing more rigorous, human-aligned intelligent systems.