ChatPaper.aiChatPaper

Stratégies optimales de sous-unités lexicales turques à grande échelle : Évaluation systématique de l'interaction entre les données, le vocabulaire et la morphologie

Optimal Turkish Subword Strategies at Scale: Systematic Evaluation of Data, Vocabulary, Morphology Interplay

February 6, 2026
papers.authors: Duygu Altinok
cs.AI

papers.abstract

La tokenisation est un choix de conception crucial pour la modélisation neuronale du langage dans les langues à morphologie riche (LMR) comme le turc, où l'agglutination productive pose des défis à la fois pour l'efficacité du vocabulaire et la fidélité morphologique. Les études antérieures ont exploré les familles de tokenizers et les tailles de vocabulaire, mais elles varient généralement (i) le vocabulaire sans contrôler systématiquement le corpus d'entraînement du tokenizer, (ii) fournissent des diagnostics intrinsèques limités, et (iii) évaluent un éventail restreint de tâches en aval. Nous présentons la première étude complète et méthodique de la tokenisation par sous-mots pour le turc ; un « manifeste des sous-mots », qui fait varier conjointement la taille du vocabulaire et la taille du corpus d'entraînement du tokenizer (couplage données et vocabulaire), compare plusieurs familles de tokenizers sous des budgets de paramètres équivalents (WordPiece, niveau morphologique et modèles de base caractère), et évalue sur des tâches sémantiques (INF, STS, analyse de sentiments, REC), syntaxiques (Étiquetage morphosyntaxique, analyse des dépendances) et des sondages sensibles à la morphologie. Pour expliquer pourquoi les tokenizers réussissent ou échouent, nous introduisons une boîte à outils de diagnostic sensible à la morphologie qui va au-delà des agrégats grossiers pour inclure la micro/macro F1 au niveau des frontières, l'atomicité des lemmes découplée par rapport aux correspondances de frontières de surface, les indices de sur/sous-segmentation, les distances d'édition caractère/mot (CER/WER), les taux de continuation, ainsi que la couverture par type d'affixe et l'atomicité au niveau des tokens. Nos contributions sont quadruples : (i) une investigation systématique de la triade corpus-vocabulaire-succès ; (ii) un cadre d'évaluation unifié et sensible à la morphologie reliant les diagnostics intrinsèques aux résultats extrinsèques ; (iii) des comparaisons contrôlées identifiant quand la tokenisation au niveau caractère et au niveau morphologique est bénéfique ; et (iv) la publication en open-source du code d'évaluation, des pipelines de tokenizers et des modèles. En tant que premier travail de ce genre, ce « manifeste des sous-mots » fournit des conseils pratiques pour construire des tokenizers efficaces dans les LMR et établit une base reproductible pour les recherches futures.
English
Tokenization is a pivotal design choice for neural language modeling in morphologically rich languages (MRLs) such as Turkish, where productive agglutination challenges both vocabulary efficiency and morphological fidelity. Prior studies have explored tokenizer families and vocabulary sizes but typically (i) vary vocabulary without systematically controlling the tokenizer's training corpus, (ii) provide limited intrinsic diagnostics, and (iii) evaluate a narrow slice of downstream tasks. We present the first comprehensive, principled study of Turkish subword tokenization; a "subwords manifest", that jointly varies vocabulary size and tokenizer training corpus size (data and vocabulary coupling), compares multiple tokenizer families under matched parameter budgets (WordPiece, morphology level, and character baselines), and evaluates across semantic (NLI, STS, sentiment analysis, NER), syntactic (POS, dependency parsing), and morphology-sensitive probes. To explain why tokenizers succeed or fail, we introduce a morphology-aware diagnostic toolkit that goes beyond coarse aggregates to boundary-level micro/macro F1, decoupled lemma atomicity vs. surface boundary hits, over/under-segmentation indices, character/word edit distances (CER/WER), continuation rates, and affix-type coverage and token-level atomicity. Our contributions are fourfold: (i) a systematic investigation of the vocabulary-corpus-success triad; (ii) a unified, morphology-aware evaluation framework linking intrinsic diagnostics to extrinsic outcomes; (iii) controlled comparisons identifying when character-level and morphology-level tokenization pay off; and (iv) an open-source release of evaluation code, tokenizer pipelines, and models. As the first work of its kind, this "subwords manifest" delivers actionable guidance for building effective tokenizers in MRLs and establishes a reproducible foundation for future research.
PDF22February 11, 2026