Оптимальные стратегии турецкого субсловного моделирования в масштабе: систематическая оценка взаимодействия данных, словаря и морфологии
Optimal Turkish Subword Strategies at Scale: Systematic Evaluation of Data, Vocabulary, Morphology Interplay
February 6, 2026
Авторы: Duygu Altinok
cs.AI
Аннотация
Токенизация является ключевым проектировочным решением для нейросетевого языкового моделирования в морфологически богатых языках (МБЯ), таких как турецкий, где продуктивная агглютинация создает проблемы как для эффективности словаря, так и для морфологической точности. Предыдущие исследования изучали семейства токенизаторов и размеры словарей, но обычно (i) варьируют словарь без систематического контроля обучающего корпуса токенизатора, (ii) предоставляют ограниченную внутреннюю диагностику и (iii) оценивают на узком наборе конечных задач. Мы представляем первое комплексное, принципиальное исследование субсловной токенизации для турецкого языка — «манифест субслов», который совместно варьирует размер словаря и размер обучающего корпуса токенизатора (связь данных и словаря), сравнивает несколько семейств токенизаторов при сопоставимых бюджетах параметров (WordPiece, морфологический уровень и символьные базовые линии) и проводит оценку на семантических (NLI, STS, анализ тональности, NER), синтаксических (POS, dependency parsing) и чувствительных к морфологии пробах. Чтобы объяснить, почему токенизаторы работают или терпят неудачу, мы вводим инструментарий морфологически осознанной диагностики, который выходит за рамки грубых агрегатов к микро/макро F1 на уровне границ, разделенным показателям леммной атомарности и попаданий в поверхностные границы, индексам пере-/недо-сегментации, символьным/словным редакционным расстояниям (CER/WER), показателям продолжения, а также охвату типов аффиксов и токен-уровневой атомарности. Наш вклад четырехаспектен: (i) систематическое исследование триады «словарь-корпус-успех»; (ii) унифицированная морфологически осознанная система оценки, связывающая внутреннюю диагностику с внешними результатами; (iii) контролируемые сравнения, определяющие, когда окупается токенизация на символьном и морфологическом уровнях; и (iv) открытая публикация кода оценки, конвейеров токенизаторов и моделей. Будучи первой работой такого рода, этот «манифест субслов» предоставляет практические рекомендации для создания эффективных токенизаторов в МБЯ и закладывает воспроизводимую основу для будущих исследований.
English
Tokenization is a pivotal design choice for neural language modeling in morphologically rich languages (MRLs) such as Turkish, where productive agglutination challenges both vocabulary efficiency and morphological fidelity. Prior studies have explored tokenizer families and vocabulary sizes but typically (i) vary vocabulary without systematically controlling the tokenizer's training corpus, (ii) provide limited intrinsic diagnostics, and (iii) evaluate a narrow slice of downstream tasks. We present the first comprehensive, principled study of Turkish subword tokenization; a "subwords manifest", that jointly varies vocabulary size and tokenizer training corpus size (data and vocabulary coupling), compares multiple tokenizer families under matched parameter budgets (WordPiece, morphology level, and character baselines), and evaluates across semantic (NLI, STS, sentiment analysis, NER), syntactic (POS, dependency parsing), and morphology-sensitive probes. To explain why tokenizers succeed or fail, we introduce a morphology-aware diagnostic toolkit that goes beyond coarse aggregates to boundary-level micro/macro F1, decoupled lemma atomicity vs. surface boundary hits, over/under-segmentation indices, character/word edit distances (CER/WER), continuation rates, and affix-type coverage and token-level atomicity. Our contributions are fourfold: (i) a systematic investigation of the vocabulary-corpus-success triad; (ii) a unified, morphology-aware evaluation framework linking intrinsic diagnostics to extrinsic outcomes; (iii) controlled comparisons identifying when character-level and morphology-level tokenization pay off; and (iv) an open-source release of evaluation code, tokenizer pipelines, and models. As the first work of its kind, this "subwords manifest" delivers actionable guidance for building effective tokenizers in MRLs and establishes a reproducible foundation for future research.