Vincoli di Tokenizzazione nei Modelli Linguistici di Grande Dimensione: Uno Studio sui Limiti del Ragionamento Simbolico e Aritmetico
Tokenization Constraints in LLMs: A Study of Symbolic and Arithmetic Reasoning Limits
May 20, 2025
Autori: Xiang Zhang, Juntai Cao, Jiaqi Wei, Yiwei Xu, Chenyu You
cs.AI
Abstract
La tokenizzazione rappresenta il primo - e spesso sottovalutato - strato di computazione nei modelli linguistici. Sebbene il prompting a catena di pensiero (Chain-of-Thought, CoT) consenta ai modelli transformer di approssimare la computazione ricorrente esternalizzando i passaggi intermedi, dimostriamo che il successo di tale ragionamento è fondamentalmente limitato dalla struttura degli input tokenizzati. Questo lavoro presenta un'indagine teorica ed empirica su come gli schemi di tokenizzazione, in particolare i metodi basati su sottoparole come il byte-pair encoding (BPE), ostacolino la computazione simbolica fondendo o oscurando unità di ragionamento atomiche. Introduciamo il concetto di Consapevolezza del Token per formalizzare come una scarsa granularità dei token interrompa l'allineamento logico e impedisca ai modelli di generalizzare procedure simboliche. Attraverso una valutazione sistematica su compiti aritmetici e simbolici, dimostriamo che la struttura dei token influisce drasticamente sulle prestazioni di ragionamento, causando fallimenti anche con il CoT, mentre formati allineati atomicamente sbloccano una forte generalizzazione, permettendo a modelli di piccole dimensioni (ad esempio, GPT-4o-mini) di superare sistemi più grandi (ad esempio, o1) nel ragionamento strutturato. Le nostre scoperte rivelano che la capacità di ragionamento simbolico nei LLM non è puramente architetturale, ma profondamente condizionata dalle rappresentazioni a livello di token.
English
Tokenization is the first - and often underappreciated - layer of computation
in language models. While Chain-of-Thought (CoT) prompting enables transformer
models to approximate recurrent computation by externalizing intermediate
steps, we show that the success of such reasoning is fundamentally bounded by
the structure of tokenized inputs. This work presents a theoretical and
empirical investigation into how tokenization schemes, particularly
subword-based methods like byte-pair encoding (BPE), impede symbolic
computation by merging or obscuring atomic reasoning units. We introduce the
notion of Token Awareness to formalize how poor token granularity disrupts
logical alignment and prevents models from generalizing symbolic procedures.
Through systematic evaluation on arithmetic and symbolic tasks, we demonstrate
that token structure dramatically affect reasoning performance, causing failure
even with CoT, while atomically-aligned formats unlock strong generalization,
allowing small models (e.g., GPT-4o-mini) to outperform larger systems (e.g.,
o1) in structured reasoning. Our findings reveal that symbolic reasoning
ability in LLMs is not purely architectural, but deeply conditioned on
token-level representations.