Fragmentos de Datas: Um Gargalo Oculto da Tokenização para o Raciocínio Temporal
Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning
May 22, 2025
Autores: Gagan Bhatia, Maxime Peyrard, Wei Zhao
cs.AI
Resumo
Os tokenizadores BPE modernos frequentemente dividem datas do calendário em fragmentos sem significado,
por exemplo, 20250312 → 202, 503, 12, inflando a contagem de tokens e obscurecendo
a estrutura inerente necessária para um raciocínio temporal robusto. Neste trabalho,
(1) introduzimos uma métrica simples, porém interpretável, denominada taxa de fragmentação
de datas, que mede o quão fielmente um tokenizador preserva os componentes de datas com
múltiplos dígitos; (2) lançamos o DateAugBench, um conjunto de 6500 exemplos abrangendo
três tarefas de raciocínio temporal: resolução de datas baseada em contexto, quebra-cabeças
de invariância de formato e aritmética de datas em regimes históricos, contemporâneos e
futuros; e (3) por meio de análises de sondagem camada a camada e de saltos de atenção
causal, descobrimos um mecanismo emergente de abstração de datas pelo qual grandes modelos
de linguagem costuram os fragmentos dos componentes de mês, dia e ano para o raciocínio
temporal. Nossos experimentos mostram que a fragmentação excessiva está correlacionada
com quedas de precisão de até 10 pontos em datas incomuns, como datas históricas e
futurísticas. Além disso, descobrimos que, quanto maior o modelo, mais rapidamente
a abstração emergente de datas que repara os fragmentos é realizada. Por fim, observamos
um caminho de raciocínio que os LLMs seguem para montar os fragmentos de datas, que
tipicamente difere da interpretação humana (ano → mês → dia).
English
Modern BPE tokenizers often split calendar dates into meaningless fragments,
e.g., 20250312 rightarrow 202, 503, 12, inflating token counts and obscuring
the inherent structure needed for robust temporal reasoning. In this work, we
(1) introduce a simple yet interpretable metric, termed date fragmentation
ratio, that measures how faithfully a tokenizer preserves multi-digit date
components; (2) release DateAugBench, a suite of 6500 examples spanning three
temporal reasoning tasks: context-based date resolution, format-invariance
puzzles, and date arithmetic across historical, contemporary, and future
regimes; and (3) through layer-wise probing and causal attention-hop analyses,
uncover an emergent date-abstraction mechanism whereby large language models
stitch together the fragments of month, day, and year components for temporal
reasoning. Our experiments show that excessive fragmentation correlates with
accuracy drops of up to 10 points on uncommon dates like historical and
futuristic dates. Further, we find that the larger the model, the faster the
emergent date abstraction that heals date fragments is accomplished. Lastly, we
observe a reasoning path that LLMs follow to assemble date fragments, typically
differing from human interpretation (year rightarrow month rightarrow
day).