Datumsfragmente: Ein versteckter Engpass der Tokenisierung für zeitliches Schließen
Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning
May 22, 2025
Autoren: Gagan Bhatia, Maxime Peyrard, Wei Zhao
cs.AI
Zusammenfassung
Moderne BPE-Tokenizer teilen Kalenderdaten oft in bedeutungslose Fragmente auf,
z. B. 20250312 → 202, 503, 12, was die Tokenanzahl erhöht und die zugrunde liegende
Struktur, die für robustes zeitliches Schließen erforderlich ist, verschleiert. In dieser Arbeit
(1) führen wir eine einfache, aber interpretierbare Metrik ein, das sogenannte Datumsfragmentierungsverhältnis,
das misst, wie treu ein Tokenizer mehrstellige Datumskomponenten bewahrt;
(2) veröffentlichen wir DateAugBench, eine Sammlung von 6500 Beispielen, die drei
Aufgaben des zeitlichen Schließens abdecken: kontextbasierte Datumsauflösung,
formatunabhängige Rätsel und Datumsarithmetik über historische, zeitgenössische und zukünftige
Zeiträume; und (3) decken wir durch schichtenweise Analysen und kausale Aufmerksamkeits-Hop-Analysen
einen emergenten Datumsabstraktionsmechanismus auf, bei dem große Sprachmodelle
die Fragmente von Monats-, Tages- und Jahreskomponenten für das zeitliche Schließen
zusammensetzen. Unsere Experimente zeigen, dass übermäßige Fragmentierung mit
Genauigkeitseinbußen von bis zu 10 Punkten bei ungewöhnlichen Daten wie historischen und
futuristischen Daten korreliert. Weiterhin stellen wir fest, dass je größer das Modell ist, desto schneller
die emergente Datumsabstraktion, die Datumsfragmente heilt, erreicht wird. Schließlich beobachten wir
einen Schließpfad, dem LLMs folgen, um Datumsfragmente zusammenzusetzen, der sich typischerweise
von der menschlichen Interpretation unterscheidet (Jahr → Monat → Tag).
English
Modern BPE tokenizers often split calendar dates into meaningless fragments,
e.g., 20250312 rightarrow 202, 503, 12, inflating token counts and obscuring
the inherent structure needed for robust temporal reasoning. In this work, we
(1) introduce a simple yet interpretable metric, termed date fragmentation
ratio, that measures how faithfully a tokenizer preserves multi-digit date
components; (2) release DateAugBench, a suite of 6500 examples spanning three
temporal reasoning tasks: context-based date resolution, format-invariance
puzzles, and date arithmetic across historical, contemporary, and future
regimes; and (3) through layer-wise probing and causal attention-hop analyses,
uncover an emergent date-abstraction mechanism whereby large language models
stitch together the fragments of month, day, and year components for temporal
reasoning. Our experiments show that excessive fragmentation correlates with
accuracy drops of up to 10 points on uncommon dates like historical and
futuristic dates. Further, we find that the larger the model, the faster the
emergent date abstraction that heals date fragments is accomplished. Lastly, we
observe a reasoning path that LLMs follow to assemble date fragments, typically
differing from human interpretation (year rightarrow month rightarrow
day).Summary
AI-Generated Summary