SampoNLP: Ein selbstreferenzielles Toolkit für die morphologische Analyse von Subword-Tokenizern
SampoNLP: A Self-Referential Toolkit for Morphological Analysis of Subword Tokenizers
January 8, 2026
papers.authors: Iaroslav Chelombitko, Ekaterina Chelombitko, Aleksey Komissarov
cs.AI
papers.abstract
Die Qualität der Subword-Tokenisierung ist entscheidend für große Sprachmodelle, doch die Bewertung von Tokenizern für morphologisch reiche uralische Sprachen wird durch das Fehlen sauberer Morphemlexika erschwert.
Wir stellen SampoNLP vor, ein korpusfreies Toolkit zur Erstellung morphologischer Lexika mittels MDL-inspiriertem Self-Referential Atomicity Scoring, das zusammengesetzte Formen anhand interner struktureller Hinweise filtert – geeignet für ressourcenarme Umgebungen.
Mithilfe der von SampoNLP für Finnisch, Ungarisch und Estnisch generierten hochreinen Lexika führen wir eine systematische Evaluation von BPE-Tokenizern über einen Bereich von Vokabulargrößen (8k–256k) durch. Wir schlagen eine einheitliche Metrik vor, den Integrated Performance Score (IPS), um den Zielkonflikt zwischen Morphemabdeckung und Überteilung zu bewältigen. Durch die Analyse der IPS-Kurven identifizieren wir die „Elbow-Points“ abnehmender Grenzerträge und geben erstmals empirisch fundierte Empfehlungen für optimale Vokabulargrößen (k) in diesen Sprachen. Unsere Studie bietet nicht nur praktische Anleitung, sondern weist auch quantitativ die Grenzen von Standard-BPE für hochagglutinierende Sprachen nach. Die SampoNLP-Bibliothek und alle generierten Ressourcen sind öffentlich verfügbar: https://github.com/AragonerUA/SampoNLP
English
The quality of subword tokenization is critical for Large Language Models, yet evaluating tokenizers for morphologically rich Uralic languages is hampered by the lack of clean morpheme lexicons.
We introduce SampoNLP, a corpus-free toolkit for morphological lexicon creation using MDL-inspired Self-Referential Atomicity Scoring, which filters composite forms through internal structural cues - suited for low-resource settings.
Using the high-purity lexicons generated by SampoNLP for Finnish, Hungarian, and Estonian, we conduct a systematic evaluation of BPE tokenizers across a range of vocabulary sizes (8k-256k). We propose a unified metric, the Integrated Performance Score (IPS), to navigate the trade-off between morpheme coverage and over-splitting. By analyzing the IPS curves, we identify the "elbow points" of diminishing returns and provide the first empirically grounded recommendations for optimal vocabulary sizes (k) in these languages. Our study not only offers practical guidance but also quantitatively demonstrates the limitations of standard BPE for highly agglutinative languages. The SampoNLP library and all generated resources are made publicly available: https://github.com/AragonerUA/SampoNLP