Kognitive Diskrepanz in multimodalen großen Sprachmodellen beim Verständnis diskreter Symbole

Zusammenfassung

Während Multimodale Große Sprachmodelle (MLLMs) bemerkenswerte Erfolge bei der Interpretation natürlicher Szenen erzielt haben, bleibt ihre Fähigkeit, diskrete Symbole – die grundlegenden Bausteine menschlicher Kognition – zu verarbeiten, eine entscheidende offene Frage. Im Gegensatz zu kontinuierlichen visuellen Daten erfordern Symbole wie mathematische Formeln, chemische Strukturen und linguistische Zeichen eine präzise, tiefgründigere Interpretation. Dieses Papier stellt einen umfassenden Benchmark vor, um zu bewerten, wie führende MLLMs diese "diskreten semantischen Räume" in fünf Domänen navigieren: Sprache, Kultur, Mathematik, Physik und Chemie. Unsere Untersuchung deckt ein kontraintuitives Phänomen auf: Modelle scheitern oft an grundlegender Symbolerkennung, bestehen aber komplexe Reasoning-Aufgaben, was darauf hindeutet, dass sie sich auf linguistische Wahrscheinlichkeiten und nicht auf echte visuelle Wahrnehmung verlassen. Indem wir diese "kognitive Diskrepanz" aufdecken, beleuchten wir eine signifikante Lücke in den aktuellen KI-Fähigkeiten: die Schwierigkeit, die symbolischen Sprachen, die wissenschaftlichen Entdeckungen und abstraktem Denken zugrunde liegen, wirklich wahrzunehmen und zu verstehen. Diese Arbeit bietet einen Fahrplan für die Entwicklung rigoroserer, menschlich ausgerichteter intelligenter Systeme.

English

While Multimodal Large Language Models (MLLMs) have achieved remarkable success in interpreting natural scenes, their ability to process discrete symbols -- the fundamental building blocks of human cognition -- remains a critical open question. Unlike continuous visual data, symbols such as mathematical formulas, chemical structures, and linguistic characters require precise, deeper interpretation. This paper introduces a comprehensive benchmark to evaluate how top-tier MLLMs navigate these "discrete semantic spaces" across five domains: language, culture, mathematics, physics, and chemistry. Our investigation uncovers a counterintuitive phenomenon: models often fail at basic symbol recognition yet succeed in complex reasoning tasks, suggesting they rely on linguistic probability rather than true visual perception. By exposing this "cognitive mismatch", we highlight a significant gap in current AI capabilities: the struggle to truly perceive and understand the symbolic languages that underpin scientific discovery and abstract thought. This work offers a roadmap for developing more rigorous, human-aligned intelligent systems.

Kognitive Diskrepanz in multimodalen großen Sprachmodellen beim Verständnis diskreter Symbole

Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding

Zusammenfassung

Support