Vincoli di Tokenizzazione nei Modelli Linguistici di Grande Dimensione: Uno Studio sui Limiti del Ragionamento Simbolico e Aritmetico

Abstract

La tokenizzazione rappresenta il primo - e spesso sottovalutato - strato di computazione nei modelli linguistici. Sebbene il prompting a catena di pensiero (Chain-of-Thought, CoT) consenta ai modelli transformer di approssimare la computazione ricorrente esternalizzando i passaggi intermedi, dimostriamo che il successo di tale ragionamento è fondamentalmente limitato dalla struttura degli input tokenizzati. Questo lavoro presenta un'indagine teorica ed empirica su come gli schemi di tokenizzazione, in particolare i metodi basati su sottoparole come il byte-pair encoding (BPE), ostacolino la computazione simbolica fondendo o oscurando unità di ragionamento atomiche. Introduciamo il concetto di Consapevolezza del Token per formalizzare come una scarsa granularità dei token interrompa l'allineamento logico e impedisca ai modelli di generalizzare procedure simboliche. Attraverso una valutazione sistematica su compiti aritmetici e simbolici, dimostriamo che la struttura dei token influisce drasticamente sulle prestazioni di ragionamento, causando fallimenti anche con il CoT, mentre formati allineati atomicamente sbloccano una forte generalizzazione, permettendo a modelli di piccole dimensioni (ad esempio, GPT-4o-mini) di superare sistemi più grandi (ad esempio, o1) nel ragionamento strutturato. Le nostre scoperte rivelano che la capacità di ragionamento simbolico nei LLM non è puramente architetturale, ma profondamente condizionata dalle rappresentazioni a livello di token.

English

Tokenization is the first - and often underappreciated - layer of computation in language models. While Chain-of-Thought (CoT) prompting enables transformer models to approximate recurrent computation by externalizing intermediate steps, we show that the success of such reasoning is fundamentally bounded by the structure of tokenized inputs. This work presents a theoretical and empirical investigation into how tokenization schemes, particularly subword-based methods like byte-pair encoding (BPE), impede symbolic computation by merging or obscuring atomic reasoning units. We introduce the notion of Token Awareness to formalize how poor token granularity disrupts logical alignment and prevents models from generalizing symbolic procedures. Through systematic evaluation on arithmetic and symbolic tasks, we demonstrate that token structure dramatically affect reasoning performance, causing failure even with CoT, while atomically-aligned formats unlock strong generalization, allowing small models (e.g., GPT-4o-mini) to outperform larger systems (e.g., o1) in structured reasoning. Our findings reveal that symbolic reasoning ability in LLMs is not purely architectural, but deeply conditioned on token-level representations.

Vincoli di Tokenizzazione nei Modelli Linguistici di Grande Dimensione: Uno Studio sui Limiti del Ragionamento Simbolico e Aritmetico

Tokenization Constraints in LLMs: A Study of Symbolic and Arithmetic Reasoning Limits

Abstract

Support