Datumfragmenten: Een Verborgen Bottleneck van Tokenisatie voor Temporeel Redeneren
Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning
May 22, 2025
Auteurs: Gagan Bhatia, Maxime Peyrard, Wei Zhao
cs.AI
Samenvatting
Moderne BPE-tokenizers splitsen kalenderdatums vaak op in betekenisloze fragmenten,
bijvoorbeeld 20250312 → 202, 503, 12, wat het aantal tokens opblaast en de
onderliggende structuur verhult die nodig is voor robuust temporeel redeneren. In dit werk
(1) introduceren we een eenvoudige maar interpreteerbare metriek, genaamd de
datumfragmentatieratio, die meet hoe trouw een tokenizer meercijferige datumcomponenten
behoudt; (2) presenteren we DateAugBench, een set van 6500 voorbeelden die drie
temporele redeneertaken omvat: contextgebaseerde datumresolutie, formaatonafhankelijke
puzzels en datumrekenkunde over historische, hedendaagse en toekomstige regimes; en
(3) ontdekken we, via laaggewijze probing en causale aandacht-hop-analyses, een emergent
datumabstractiemechanisme waarbij grote taalmodellen de fragmenten van maand-, dag- en
jaarcomponenten aan elkaar rijgen voor temporeel redeneren. Onze experimenten tonen aan
dat overmatige fragmentatie correleert met nauwkeurigheidsdalingen tot wel 10 punten
bij ongebruikelijke datums zoals historische en futuristische datums. Verder vinden we dat
hoe groter het model, hoe sneller de emergente datumabstractie die datumfragmenten
herstel, wordt bereikt. Tot slot observeren we een redeneerpad dat LLMs volgen om
datumfragmenten samen te stellen, dat typisch verschilt van menselijke interpretatie
(jaar → maand → dag).
English
Modern BPE tokenizers often split calendar dates into meaningless fragments,
e.g., 20250312 rightarrow 202, 503, 12, inflating token counts and obscuring
the inherent structure needed for robust temporal reasoning. In this work, we
(1) introduce a simple yet interpretable metric, termed date fragmentation
ratio, that measures how faithfully a tokenizer preserves multi-digit date
components; (2) release DateAugBench, a suite of 6500 examples spanning three
temporal reasoning tasks: context-based date resolution, format-invariance
puzzles, and date arithmetic across historical, contemporary, and future
regimes; and (3) through layer-wise probing and causal attention-hop analyses,
uncover an emergent date-abstraction mechanism whereby large language models
stitch together the fragments of month, day, and year components for temporal
reasoning. Our experiments show that excessive fragmentation correlates with
accuracy drops of up to 10 points on uncommon dates like historical and
futuristic dates. Further, we find that the larger the model, the faster the
emergent date abstraction that heals date fragments is accomplished. Lastly, we
observe a reasoning path that LLMs follow to assemble date fragments, typically
differing from human interpretation (year rightarrow month rightarrow
day).