Disallineamento Cognitivo nei Modelli Linguistici Multimodali di Grande Dimensione per la Comprensione di Simboli Discreti

Abstract

Sebbene i Modelli Linguistici Multimodali di Grande Scala (MLLM) abbiano ottenuto un successo notevole nell'interpretazione di scene naturali, la loro capacità di elaborare simboli discreti – i mattoni fondamentali della cognizione umana – rimane una questione aperta e cruciale. A differenza dei dati visivi continui, simboli come formule matematiche, strutture chimiche e caratteri linguistici richiedono un'interpretazione più profonda e precisa. Questo articolo introduce un benchmark completo per valutare come i migliori MLLM navigano in questi "spazi semantici discreti" attraverso cinque domini: linguaggio, cultura, matematica, fisica e chimica. La nostra indagine rivela un fenomeno controintuitivo: i modelli spesso falliscono nel riconoscimento basilare dei simboli, ma riescono in compiti di ragionamento complesso, suggerendo che si affidano più alla probabilità linguistica che a una vera percezione visiva. Mettendo in luce questo "disallineamento cognitivo", evidenziamo un divario significativo nelle capacità dell'IA attuale: la difficoltà di percepire e comprendere veramente i linguaggi simbolici che sono alla base della scoperta scientifica e del pensiero astratto. Questo lavoro offre una roadmap per sviluppare sistemi intelligenti più rigorosi e allineati con le capacità umane.

English

While Multimodal Large Language Models (MLLMs) have achieved remarkable success in interpreting natural scenes, their ability to process discrete symbols -- the fundamental building blocks of human cognition -- remains a critical open question. Unlike continuous visual data, symbols such as mathematical formulas, chemical structures, and linguistic characters require precise, deeper interpretation. This paper introduces a comprehensive benchmark to evaluate how top-tier MLLMs navigate these "discrete semantic spaces" across five domains: language, culture, mathematics, physics, and chemistry. Our investigation uncovers a counterintuitive phenomenon: models often fail at basic symbol recognition yet succeed in complex reasoning tasks, suggesting they rely on linguistic probability rather than true visual perception. By exposing this "cognitive mismatch", we highlight a significant gap in current AI capabilities: the struggle to truly perceive and understand the symbolic languages that underpin scientific discovery and abstract thought. This work offers a roadmap for developing more rigorous, human-aligned intelligent systems.

Disallineamento Cognitivo nei Modelli Linguistici Multimodali di Grande Dimensione per la Comprensione di Simboli Discreti

Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding

Abstract

Support