Fragments de date : un goulot d'étranglement caché de la tokenisation pour le raisonnement temporel
Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning
May 22, 2025
Auteurs: Gagan Bhatia, Maxime Peyrard, Wei Zhao
cs.AI
Résumé
Les tokenizers BPE modernes divisent souvent les dates calendaires en fragments dénués de sens,
par exemple, 20250312 → 202, 503, 12, ce qui gonfle le nombre de tokens et masque
la structure inhérente nécessaire à un raisonnement temporel robuste. Dans ce travail, nous
(1) introduisons une métrique simple mais interprétable, appelée ratio de fragmentation des dates,
qui mesure dans quelle mesure un tokenizer préserve les composants multidigits des dates ;
(2) publions DateAugBench, une suite de 6500 exemples couvrant trois tâches de raisonnement temporel :
la résolution de dates basée sur le contexte, les énigmes d'invariance de format, et l'arithmétique des dates
à travers des régimes historiques, contemporains et futurs ; et (3) grâce à des analyses par sondage
couche par couche et des analyses de sauts d'attention causale, nous découvrons un mécanisme émergent
d'abstraction des dates par lequel les grands modèles de langage assemblent les fragments des composants
mois, jour et année pour le raisonnement temporel. Nos expériences montrent qu'une fragmentation excessive
corrèle avec des baisses de précision allant jusqu'à 10 points sur des dates inhabituelles comme les dates
historiques et futuristes. De plus, nous constatons que plus le modèle est grand, plus rapidement
l'abstraction émergente des dates qui répare les fragments est accomplie. Enfin, nous observons
un chemin de raisonnement que les LLM suivent pour assembler les fragments de dates, différant
généralement de l'interprétation humaine (année → mois → jour).
English
Modern BPE tokenizers often split calendar dates into meaningless fragments,
e.g., 20250312 rightarrow 202, 503, 12, inflating token counts and obscuring
the inherent structure needed for robust temporal reasoning. In this work, we
(1) introduce a simple yet interpretable metric, termed date fragmentation
ratio, that measures how faithfully a tokenizer preserves multi-digit date
components; (2) release DateAugBench, a suite of 6500 examples spanning three
temporal reasoning tasks: context-based date resolution, format-invariance
puzzles, and date arithmetic across historical, contemporary, and future
regimes; and (3) through layer-wise probing and causal attention-hop analyses,
uncover an emergent date-abstraction mechanism whereby large language models
stitch together the fragments of month, day, and year components for temporal
reasoning. Our experiments show that excessive fragmentation correlates with
accuracy drops of up to 10 points on uncommon dates like historical and
futuristic dates. Further, we find that the larger the model, the faster the
emergent date abstraction that heals date fragments is accomplished. Lastly, we
observe a reasoning path that LLMs follow to assemble date fragments, typically
differing from human interpretation (year rightarrow month rightarrow
day).Summary
AI-Generated Summary