Frammenti di Data: Un Collo di Bottiglia Nascosto nella Tokenizzazione per il Ragionamento Temporale
Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning
May 22, 2025
Autori: Gagan Bhatia, Maxime Peyrard, Wei Zhao
cs.AI
Abstract
I tokenizzatori BPE moderni spesso suddividono le date del calendario in frammenti privi di significato, ad esempio, 20250312 diventa 202, 503, 12, aumentando il numero di token e oscurando la struttura intrinseca necessaria per un ragionamento temporale robusto. In questo lavoro, (1) introduciamo una metrica semplice ma interpretabile, denominata rapporto di frammentazione delle date, che misura quanto fedelmente un tokenizer preserva i componenti a più cifre delle date; (2) rilasciamo DateAugBench, una suite di 6500 esempi che copre tre compiti di ragionamento temporale: risoluzione di date basata sul contesto, enigmi di invarianza al formato e aritmetica delle date attraverso regimi storici, contemporanei e futuri; e (3) attraverso analisi stratificate e analisi degli hop di attenzione causale, scopriamo un meccanismo emergente di astrazione delle date in base al quale i modelli linguistici di grandi dimensioni ricuciono insieme i frammenti dei componenti mese, giorno e anno per il ragionamento temporale. I nostri esperimenti mostrano che un'eccessiva frammentazione è correlata a cali di accuratezza fino a 10 punti su date insolite come quelle storiche e futuristiche. Inoltre, scopriamo che più grande è il modello, più velocemente viene raggiunta l'astrazione emergente delle date che ripara i frammenti. Infine, osserviamo un percorso di ragionamento che i LLM seguono per assemblare i frammenti di date, tipicamente diverso dall'interpretazione umana (anno → mese → giorno).
English
Modern BPE tokenizers often split calendar dates into meaningless fragments,
e.g., 20250312 rightarrow 202, 503, 12, inflating token counts and obscuring
the inherent structure needed for robust temporal reasoning. In this work, we
(1) introduce a simple yet interpretable metric, termed date fragmentation
ratio, that measures how faithfully a tokenizer preserves multi-digit date
components; (2) release DateAugBench, a suite of 6500 examples spanning three
temporal reasoning tasks: context-based date resolution, format-invariance
puzzles, and date arithmetic across historical, contemporary, and future
regimes; and (3) through layer-wise probing and causal attention-hop analyses,
uncover an emergent date-abstraction mechanism whereby large language models
stitch together the fragments of month, day, and year components for temporal
reasoning. Our experiments show that excessive fragmentation correlates with
accuracy drops of up to 10 points on uncommon dates like historical and
futuristic dates. Further, we find that the larger the model, the faster the
emergent date abstraction that heals date fragments is accomplished. Lastly, we
observe a reasoning path that LLMs follow to assemble date fragments, typically
differing from human interpretation (year rightarrow month rightarrow
day).