ChatPaper.aiChatPaper

Cognitieve Mismatch in Multimodale Grote Taalmodellen voor het Begrip van Discrete Symbolen

Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding

March 19, 2026
Auteurs: Yinghui Li, Jiayi Kuang, Peng Xing, Daixian Liu, Junnan Dong, Shu-Yu Guo, Yangning Li, Qingyu Zhou, Wenhao Jiang, Hai-Tao Zheng, Ying Shen, Liang Lin, Philip S. Yu
cs.AI

Samenvatting

Hoewel Multimodale Grote Taalmodellen (MLLMs) opmerkelijke successen hebben geboekt in het interpreteren van natuurlijke taferelen, blijft hun vermogen om discrete symbolen – de fundamentele bouwstenen van de menselijke cognitie – te verwerken een cruciale open vraag. In tegenstelling tot continue visuele gegevens vereisen symbolen zoals wiskundige formules, chemische structuren en linguïstische karakters een precieze, diepere interpretatie. Dit artikel introduceert een uitgebreide benchmark om te evalueren hoe top-MLLMs deze "discrete semantische ruimten" navigeren binnen vijf domeinen: taal, cultuur, wiskunde, natuurkunde en scheikunde. Ons onderzoek legt een contra-intuïtief fenomeen bloot: modellen falen vaak in basale symboolherkenning, maar slagen wel in complexe redeneertaken, wat suggereert dat ze vertrouwen op linguïstische waarschijnlijkheid in plaats van op echt visueel perceptievermogen. Door deze "cognitieve mismatch" bloot te leggen, belichten we een significante kloof in de huidige AI-capaciteiten: de moeite om de symbolische talen die ten grondslag liggen aan wetenschappelijke ontdekkingen en abstract denken, werkelijk waar te nemen en te begrijpen. Dit werk biedt een routekaart voor de ontwikkeling van meer rigoureuze, op de mens afgestemde intelligente systemen.
English
While Multimodal Large Language Models (MLLMs) have achieved remarkable success in interpreting natural scenes, their ability to process discrete symbols -- the fundamental building blocks of human cognition -- remains a critical open question. Unlike continuous visual data, symbols such as mathematical formulas, chemical structures, and linguistic characters require precise, deeper interpretation. This paper introduces a comprehensive benchmark to evaluate how top-tier MLLMs navigate these "discrete semantic spaces" across five domains: language, culture, mathematics, physics, and chemistry. Our investigation uncovers a counterintuitive phenomenon: models often fail at basic symbol recognition yet succeed in complex reasoning tasks, suggesting they rely on linguistic probability rather than true visual perception. By exposing this "cognitive mismatch", we highlight a significant gap in current AI capabilities: the struggle to truly perceive and understand the symbolic languages that underpin scientific discovery and abstract thought. This work offers a roadmap for developing more rigorous, human-aligned intelligent systems.
PDF182March 23, 2026