SampoNLP : Une boîte à outils autoréférentielle pour l'analyse morphologique des tokenizers de sous-mots
SampoNLP: A Self-Referential Toolkit for Morphological Analysis of Subword Tokenizers
January 8, 2026
papers.authors: Iaroslav Chelombitko, Ekaterina Chelombitko, Aleksey Komissarov
cs.AI
papers.abstract
La qualité de la tokenisation par sous-mots est cruciale pour les grands modèles de langage, mais l'évaluation des tokenizers pour les langues ouraliennes morphologiquement riches est entravée par l'absence de lexiques morphématiques propres.
Nous présentons SampoNLP, une boîte à outils sans corpus pour la création de lexiques morphologiques utilisant un score d'atomicité auto-référentiel inspiré du principe de longueur minimale de description (MDL), qui filtre les formes composites via des indices structurels internes – adapté aux contextes pauvres en ressources.
En utilisant les lexiques de haute pureté générés par SampoNLP pour le finnois, le hongrois et l'estonien, nous menons une évaluation systématique des tokenizers BPE sur une gamme de tailles de vocabulaire (8k-256k). Nous proposons une métrique unifiée, le Score de Performance Intégré (IPS), pour naviguer le compromis entre la couverture morphématique et la sur-segmentation. En analysant les courbes IPS, nous identifions les "points de coude" de rendements décroissants et fournissons les premières recommandations empiriquement fondées pour les tailles de vocabulaire optimales (k) dans ces langues. Notre étude offre non seulement des conseils pratiques, mais démontre aussi quantitativement les limitations du BPE standard pour les langues hautement agglutinantes. La bibliothèque SampoNLP et toutes les ressources générées sont mises à disposition publiquement : https://github.com/AragonerUA/SampoNLP
English
The quality of subword tokenization is critical for Large Language Models, yet evaluating tokenizers for morphologically rich Uralic languages is hampered by the lack of clean morpheme lexicons.
We introduce SampoNLP, a corpus-free toolkit for morphological lexicon creation using MDL-inspired Self-Referential Atomicity Scoring, which filters composite forms through internal structural cues - suited for low-resource settings.
Using the high-purity lexicons generated by SampoNLP for Finnish, Hungarian, and Estonian, we conduct a systematic evaluation of BPE tokenizers across a range of vocabulary sizes (8k-256k). We propose a unified metric, the Integrated Performance Score (IPS), to navigate the trade-off between morpheme coverage and over-splitting. By analyzing the IPS curves, we identify the "elbow points" of diminishing returns and provide the first empirically grounded recommendations for optimal vocabulary sizes (k) in these languages. Our study not only offers practical guidance but also quantitatively demonstrates the limitations of standard BPE for highly agglutinative languages. The SampoNLP library and all generated resources are made publicly available: https://github.com/AragonerUA/SampoNLP