Фрагменты дат: скрытое узкое место токенизации для временного анализа
Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning
May 22, 2025
Авторы: Gagan Bhatia, Maxime Peyrard, Wei Zhao
cs.AI
Аннотация
Современные токенизаторы на основе BPE часто разбивают календарные даты на бессмысленные фрагменты, например, 20250312 → 202, 503, 12, что увеличивает количество токенов и скрывает внутреннюю структуру, необходимую для надежного временного рассуждения. В данной работе мы (1) вводим простую, но интерпретируемую метрику, называемую коэффициентом фрагментации дат, которая измеряет, насколько точно токенизатор сохраняет многозначные компоненты дат; (2) представляем DateAugBench — набор из 6500 примеров, охватывающих три задачи временного рассуждения: разрешение дат на основе контекста, головоломки на инвариантность формата и арифметику дат в исторических, современных и будущих режимах; и (3) с помощью послойного анализа и анализа причинно-следственных связей внимания раскрываем механизм абстракции дат, при котором крупные языковые модели объединяют фрагменты месяцев, дней и годов для временного рассуждения. Наши эксперименты показывают, что чрезмерная фрагментация коррелирует с падением точности до 10 пунктов на редких датах, таких как исторические и футуристические даты. Кроме того, мы обнаруживаем, что чем крупнее модель, тем быстрее происходит возникающая абстракция дат, которая восстанавливает фрагменты дат. Наконец, мы наблюдаем путь рассуждения, который LLM следуют для сборки фрагментов дат, обычно отличающийся от человеческой интерпретации (год → месяц → день).
English
Modern BPE tokenizers often split calendar dates into meaningless fragments,
e.g., 20250312 rightarrow 202, 503, 12, inflating token counts and obscuring
the inherent structure needed for robust temporal reasoning. In this work, we
(1) introduce a simple yet interpretable metric, termed date fragmentation
ratio, that measures how faithfully a tokenizer preserves multi-digit date
components; (2) release DateAugBench, a suite of 6500 examples spanning three
temporal reasoning tasks: context-based date resolution, format-invariance
puzzles, and date arithmetic across historical, contemporary, and future
regimes; and (3) through layer-wise probing and causal attention-hop analyses,
uncover an emergent date-abstraction mechanism whereby large language models
stitch together the fragments of month, day, and year components for temporal
reasoning. Our experiments show that excessive fragmentation correlates with
accuracy drops of up to 10 points on uncommon dates like historical and
futuristic dates. Further, we find that the larger the model, the faster the
emergent date abstraction that heals date fragments is accomplished. Lastly, we
observe a reasoning path that LLMs follow to assemble date fragments, typically
differing from human interpretation (year rightarrow month rightarrow
day).Summary
AI-Generated Summary