ChatPaper.aiChatPaper

Optimale türkische Subwort-Strategien im großen Maßstab: Systematische Evaluierung des Zusammenspiels von Daten, Vokabular und Morphologie

Optimal Turkish Subword Strategies at Scale: Systematic Evaluation of Data, Vocabulary, Morphology Interplay

February 6, 2026
papers.authors: Duygu Altinok
cs.AI

papers.abstract

Tokenisierung ist eine entscheidende Designentscheidung für neuronale Sprachmodellierung in morphologisch reichen Sprachen (MRL) wie Türkisch, wo produktive Agglutination sowohl die Vokabular-Effizienz als auch die morphologische Treue herausfordert. Bisherige Studien haben Tokenizer-Familien und Vokabulargrößen untersucht, variieren jedoch typischerweise (i) das Vokabular ohne systematische Kontrolle des Trainingskorpus des Tokenizers, (ii) bieten nur begrenzte intrinsische Diagnosen und (iii) evaluieren nur einen schmalen Ausschnitt an Downstream-Aufgaben. Wir präsentieren die erste umfassende, prinzipiengeleitete Studie zur türkischen Subword-Tokenisierung; ein "Subwords-Manifest", das gemeinsam Vokabulargröße und die Größe des Tokenizer-Trainingskorpus variiert (Kopplung von Daten und Vokabular), mehrere Tokenizer-Familien unter angeglichenen Parameterbudgets vergleicht (WordPiece, Morphologie-Level- und Character-Baselines) und sowohl über semantische (NLI, STS, Sentimentanalyse, NER), syntaktische (POS, Dependency Parsing) als auch morphologiesensitive Proben evaluiert. Um zu erklären, warum Tokenizer erfolgreich sind oder scheitern, führen wir ein morphologiebewusstes Diagnose-Toolkit ein, das über grobe Aggregate hinausgeht und boundary-level Mikro-/Makro-F1, entkoppelte Lemma-Atomarität vs. Surface-Boundary-Treffer, Über-/Unter-Segmentierungs-Indizes, Character-/Wort-Editierdistanzen (CER/WER), Fortsetzungsraten sowie Affixtyp-Abdeckung und Token-Level-Atomarität misst. Unsere Beiträge sind vierfach: (i) eine systematische Untersuchung der Trias Vokabular-Korpus-Erfolg; (ii) ein vereinheitlichter, morphologiebewusster Evaluierungsrahmen, der intrinsische Diagnosen mit extrinsischen Ergebnissen verknüpft; (iii) kontrollierte Vergleiche, die identifizieren, wann sich Tokenisierung auf Character- und Morphologie-Ebene auszahlt; und (iv) eine Open-Source-Veröffentlichung von Evaluierungscode, Tokenizer-Pipelines und Modellen. Als erste Arbeit dieser Art liefert dieses "Subwords-Manifest" umsetzbare Leitlinien für den Bau effektiver Tokenizer in MRLs und schafft eine reproduzierbare Grundlage für zukünftige Forschung.
English
Tokenization is a pivotal design choice for neural language modeling in morphologically rich languages (MRLs) such as Turkish, where productive agglutination challenges both vocabulary efficiency and morphological fidelity. Prior studies have explored tokenizer families and vocabulary sizes but typically (i) vary vocabulary without systematically controlling the tokenizer's training corpus, (ii) provide limited intrinsic diagnostics, and (iii) evaluate a narrow slice of downstream tasks. We present the first comprehensive, principled study of Turkish subword tokenization; a "subwords manifest", that jointly varies vocabulary size and tokenizer training corpus size (data and vocabulary coupling), compares multiple tokenizer families under matched parameter budgets (WordPiece, morphology level, and character baselines), and evaluates across semantic (NLI, STS, sentiment analysis, NER), syntactic (POS, dependency parsing), and morphology-sensitive probes. To explain why tokenizers succeed or fail, we introduce a morphology-aware diagnostic toolkit that goes beyond coarse aggregates to boundary-level micro/macro F1, decoupled lemma atomicity vs. surface boundary hits, over/under-segmentation indices, character/word edit distances (CER/WER), continuation rates, and affix-type coverage and token-level atomicity. Our contributions are fourfold: (i) a systematic investigation of the vocabulary-corpus-success triad; (ii) a unified, morphology-aware evaluation framework linking intrinsic diagnostics to extrinsic outcomes; (iii) controlled comparisons identifying when character-level and morphology-level tokenization pay off; and (iv) an open-source release of evaluation code, tokenizer pipelines, and models. As the first work of its kind, this "subwords manifest" delivers actionable guidance for building effective tokenizers in MRLs and establishes a reproducible foundation for future research.
PDF22February 11, 2026