날짜 조각: 시간적 추론을 위한 토큰화의 숨겨진 병목 현상
Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning
May 22, 2025
저자: Gagan Bhatia, Maxime Peyrard, Wei Zhao
cs.AI
초록
현대의 BPE 토크나이저는 종종 달력 날짜를 의미 없는 조각으로 분할합니다.
예를 들어, 20250312를 202, 503, 12로 나누어 토큰 수를 부풀리고 강건한 시간적 추론에
필요한 내재적 구조를 흐리게 만듭니다. 본 연구에서는 (1) 토크나이저가 다자리 날짜
구성 요소를 얼마나 충실히 보존하는지 측정하는 단순하면서도 해석 가능한 지표인
날짜 분할 비율(date fragmentation ratio)을 소개하고, (2) 세 가지 시간적 추론 과제
(문맥 기반 날짜 해석, 형식 불변 퍼즐, 역사적, 현대적, 미래적 영역에 걸친 날짜 산술)를
포함한 6500개의 예제로 구성된 DateAugBench를 공개하며, (3) 계층별 프로빙(layer-wise
probing)과 인과적 주의 홉(causal attention-hop) 분석을 통해 대규모 언어 모델이 월,
일, 년 구성 요소의 조각을 시간적 추론을 위해 연결하는 날짜 추상화 메커니즘이
발생함을 밝혀냅니다. 우리의 실험은 과도한 분할이 역사적 및 미래적 날짜와 같은
드문 날짜에서 최대 10포인트의 정확도 하락과 상관관계가 있음을 보여줍니다. 또한,
모델이 클수록 날짜 조각을 치유하는 날짜 추상화가 더 빠르게 이루어짐을 발견했습니다.
마지막으로, LLM이 날짜 조각을 조립하기 위해 따르는 추론 경로가 일반적으로 인간의
해석(년 → 월 → 일)과 다르다는 점을 관찰했습니다.
English
Modern BPE tokenizers often split calendar dates into meaningless fragments,
e.g., 20250312 rightarrow 202, 503, 12, inflating token counts and obscuring
the inherent structure needed for robust temporal reasoning. In this work, we
(1) introduce a simple yet interpretable metric, termed date fragmentation
ratio, that measures how faithfully a tokenizer preserves multi-digit date
components; (2) release DateAugBench, a suite of 6500 examples spanning three
temporal reasoning tasks: context-based date resolution, format-invariance
puzzles, and date arithmetic across historical, contemporary, and future
regimes; and (3) through layer-wise probing and causal attention-hop analyses,
uncover an emergent date-abstraction mechanism whereby large language models
stitch together the fragments of month, day, and year components for temporal
reasoning. Our experiments show that excessive fragmentation correlates with
accuracy drops of up to 10 points on uncommon dates like historical and
futuristic dates. Further, we find that the larger the model, the faster the
emergent date abstraction that heals date fragments is accomplished. Lastly, we
observe a reasoning path that LLMs follow to assemble date fragments, typically
differing from human interpretation (year rightarrow month rightarrow
day).Summary
AI-Generated Summary