日付フラグメント:時間的推論におけるトークン化の隠れたボトルネック
Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning
May 22, 2025
著者: Gagan Bhatia, Maxime Peyrard, Wei Zhao
cs.AI
要旨
現代のBPEトークナイザーは、しばしば日付を意味のない断片に分割します。例えば、20250312を202、503、12のように分割し、トークン数を増やし、堅牢な時間的推論に必要な内在的な構造を曖昧にしてしまいます。本研究では、(1) トークナイザーが複数桁の日付要素をどれだけ忠実に保持しているかを測定する、シンプルで解釈可能な指標「日付断片化率」を導入します。(2) 3つの時間的推論タスク(文脈に基づく日付解決、フォーマット不変パズル、歴史的・現代的・未来的な期間にわたる日付計算)にまたがる6500の例を含むDateAugBenchをリリースします。(3) 層ごとのプロービングと因果的アテンションホップ分析を通じて、大規模言語モデルが月、日、年の要素の断片を縫い合わせて時間的推論を行う「日付抽象化メカニズム」が出現することを明らかにします。実験結果から、過度の断片化は、歴史的や未来的な日付のような珍しい日付において最大10ポイントの精度低下と相関があることが示されました。さらに、モデルが大きいほど、日付断片を修復する日付抽象化が迅速に達成されることがわかりました。最後に、LLMが日付断片を組み立てる際にたどる推論パスは、通常、人間の解釈(年→月→日)とは異なることが観察されました。
English
Modern BPE tokenizers often split calendar dates into meaningless fragments,
e.g., 20250312 rightarrow 202, 503, 12, inflating token counts and obscuring
the inherent structure needed for robust temporal reasoning. In this work, we
(1) introduce a simple yet interpretable metric, termed date fragmentation
ratio, that measures how faithfully a tokenizer preserves multi-digit date
components; (2) release DateAugBench, a suite of 6500 examples spanning three
temporal reasoning tasks: context-based date resolution, format-invariance
puzzles, and date arithmetic across historical, contemporary, and future
regimes; and (3) through layer-wise probing and causal attention-hop analyses,
uncover an emergent date-abstraction mechanism whereby large language models
stitch together the fragments of month, day, and year components for temporal
reasoning. Our experiments show that excessive fragmentation correlates with
accuracy drops of up to 10 points on uncommon dates like historical and
futuristic dates. Further, we find that the larger the model, the faster the
emergent date abstraction that heals date fragments is accomplished. Lastly, we
observe a reasoning path that LLMs follow to assemble date fragments, typically
differing from human interpretation (year rightarrow month rightarrow
day).Summary
AI-Generated Summary