대규모 최적 튀르키예어 서브워드 전략: 데이터, 어휘, 형태소 상호작용의 체계적 평가
Optimal Turkish Subword Strategies at Scale: Systematic Evaluation of Data, Vocabulary, Morphology Interplay
February 6, 2026
저자: Duygu Altinok
cs.AI
초록
토큰화는 튀르키예어와 같은 형태론적으로 풍부한 언어(MRL)에서 신경망 언어 모델링의 핵심 설계 선택으로, 생산적인 교착 현상이 어휘 효율성과 형태론적 정확성 모두에 도전을 제기합니다. 선행 연구들은 토크나이저 계열과 어휘 크기를 탐구해왔으나 일반적으로 (i) 토크나이저 훈련 코퍼스를 체계적으로 통제하지 않은 채 어휘를 변화시키고, (ii) 제한된 내적 진단을 제공하며, (iii) 좁은 범위의 다운스트림 작업만 평가합니다. 본 연구는 튀르키예어 서브워드 토큰화에 대한 최초의 체계적이고 원칙적인 연구, 즉 '서브워드 선언문'을 제시합니다. 이는 어휘 크기와 토크나이저 훈련 코퍼스 크기를 함께 변화시키고(데이터와 어휘의 결합), 매칭된 매개변수 예산 하에서 여러 토크나이저 계열(WordPiece, 형태소 수준, 문자 기준 모델)을 비교하며, 의미론적(NLI, STS, 감정 분석, NER), 구문론적(POS, 의존 구문 분석), 형태론에 민감한 프로브 평가를 포괄적으로 수행합니다. 토크나이저의 성공과 실패 원인을 설명하기 위해, 우리는 형태론 인식 진단 도구 키트를 도입합니다. 이는 단순한 총괄 수치를 넘어 경계 수준의 미시/거시 F1, 분리된 표제어 원자성 대 표면 경계 적중, 과소/과다 분할 지수, 문자/단어 편집 거리(CER/WER), 연속률, 그리고 접사 유형 커버리지 및 토큰 수준 원자성을 분석합니다. 우리의 기여는 네 가지입니다: (i) 어휘-코퍼스-성공 삼중주에 대한 체계적 연구; (ii) 내적 진단과 외적 결과를 연결하는 통합된 형태론 인식 평가 프레임워크; (iii) 문자 수준 및 형태소 수준 토큰화의 효과가 나타나는 조건을 규명하는 통제 비교; (iv) 평가 코드, 토크나이저 파이프라인 및 모델의 오픈소스 공개. 이러한 유형의 최초 연구로서, 이 '서브워드 선언문'은 MRL에서 효과적인 토크나이저 구축을 위한 실질적인 지침을 제공하고 향후 연구를 위한 재현 가능한 기반을 마련합니다.
English
Tokenization is a pivotal design choice for neural language modeling in morphologically rich languages (MRLs) such as Turkish, where productive agglutination challenges both vocabulary efficiency and morphological fidelity. Prior studies have explored tokenizer families and vocabulary sizes but typically (i) vary vocabulary without systematically controlling the tokenizer's training corpus, (ii) provide limited intrinsic diagnostics, and (iii) evaluate a narrow slice of downstream tasks. We present the first comprehensive, principled study of Turkish subword tokenization; a "subwords manifest", that jointly varies vocabulary size and tokenizer training corpus size (data and vocabulary coupling), compares multiple tokenizer families under matched parameter budgets (WordPiece, morphology level, and character baselines), and evaluates across semantic (NLI, STS, sentiment analysis, NER), syntactic (POS, dependency parsing), and morphology-sensitive probes. To explain why tokenizers succeed or fail, we introduce a morphology-aware diagnostic toolkit that goes beyond coarse aggregates to boundary-level micro/macro F1, decoupled lemma atomicity vs. surface boundary hits, over/under-segmentation indices, character/word edit distances (CER/WER), continuation rates, and affix-type coverage and token-level atomicity. Our contributions are fourfold: (i) a systematic investigation of the vocabulary-corpus-success triad; (ii) a unified, morphology-aware evaluation framework linking intrinsic diagnostics to extrinsic outcomes; (iii) controlled comparisons identifying when character-level and morphology-level tokenization pay off; and (iv) an open-source release of evaluation code, tokenizer pipelines, and models. As the first work of its kind, this "subwords manifest" delivers actionable guidance for building effective tokenizers in MRLs and establishes a reproducible foundation for future research.