Fragmentos de Fecha: Un Cuello de Botella Oculto en la Tokenización para el Razonamiento Temporal
Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning
May 22, 2025
Autores: Gagan Bhatia, Maxime Peyrard, Wei Zhao
cs.AI
Resumen
Los tokenizadores BPE modernos suelen dividir las fechas del calendario en fragmentos sin sentido,
por ejemplo, 20250312 → 202, 503, 12, inflando el recuento de tokens y oscureciendo
la estructura inherente necesaria para un razonamiento temporal robusto. En este trabajo,
(1) introducimos una métrica simple pero interpretable, denominada relación de fragmentación
de fechas, que mide cuán fielmente un tokenizador preserva los componentes de fechas de varios dígitos;
(2) publicamos DateAugBench, un conjunto de 6500 ejemplos que abarcan tres tareas de razonamiento temporal:
resolución de fechas basada en contexto, acertijos de invariancia de formato y aritmética de fechas en regímenes
históricos, contemporáneos y futuros; y (3) mediante análisis de sondeo por capas y de saltos de atención causal,
descubrimos un mecanismo emergente de abstracción de fechas mediante el cual los modelos de lenguaje grande
unen los fragmentos de los componentes de mes, día y año para el razonamiento temporal. Nuestros experimentos
muestran que la fragmentación excesiva se correlaciona con caídas de precisión de hasta 10 puntos en fechas poco
comunes, como fechas históricas y futuristas. Además, encontramos que cuanto más grande es el modelo, más rápido
se logra la abstracción emergente de fechas que repara los fragmentos de fechas. Por último, observamos una ruta
de razonamiento que los LLM siguen para ensamblar fragmentos de fechas, que generalmente difiere de la interpretación
humana (año → mes → día).
English
Modern BPE tokenizers often split calendar dates into meaningless fragments,
e.g., 20250312 rightarrow 202, 503, 12, inflating token counts and obscuring
the inherent structure needed for robust temporal reasoning. In this work, we
(1) introduce a simple yet interpretable metric, termed date fragmentation
ratio, that measures how faithfully a tokenizer preserves multi-digit date
components; (2) release DateAugBench, a suite of 6500 examples spanning three
temporal reasoning tasks: context-based date resolution, format-invariance
puzzles, and date arithmetic across historical, contemporary, and future
regimes; and (3) through layer-wise probing and causal attention-hop analyses,
uncover an emergent date-abstraction mechanism whereby large language models
stitch together the fragments of month, day, and year components for temporal
reasoning. Our experiments show that excessive fragmentation correlates with
accuracy drops of up to 10 points on uncommon dates like historical and
futuristic dates. Further, we find that the larger the model, the faster the
emergent date abstraction that heals date fragments is accomplished. Lastly, we
observe a reasoning path that LLMs follow to assemble date fragments, typically
differing from human interpretation (year rightarrow month rightarrow
day).Summary
AI-Generated Summary