SampoNLP: Самоссылающийся инструментарий для морфологического анализа субсловных токенизаторов
SampoNLP: A Self-Referential Toolkit for Morphological Analysis of Subword Tokenizers
January 8, 2026
Авторы: Iaroslav Chelombitko, Ekaterina Chelombitko, Aleksey Komissarov
cs.AI
Аннотация
Качество субсловной токенизации критически важно для больших языковых моделей, однако оценка токенизаторов для морфологически богатых уральских языков затруднена из-за отсутствия чистых лексиконов морфем.
Мы представляем SampoNLP — инструментарий, не требующий корпусов, для создания морфологических лексиконов с использованием оценки атомарности по принципу минимальной длины описания (MDL), который фильтрует составные формы на основе внутренних структурных признаков и подходит для условий с ограниченными ресурсами.
Используя высокоточные лексиконы, сгенерированные SampoNLP для финского, венгерского и эстонского языков, мы проводим систематическую оценку BPE-токенизаторов для диапазона размеров словаря (8к–256к). Мы предлагаем унифицированную метрику — интегральную оценку производительности (IPS) — для балансировки между покрытием морфем и избыточным разделением. Анализируя кривые IPS, мы определяем «точки излома» убывающей отдачи и впервые даем эмпирически обоснованные рекомендации по оптимальным размерам словаря (k) для этих языков. Наше исследование не только предлагает практические рекомендации, но и количественно демонстрирует ограничения стандартного BPE для высокоагглютинативных языков. Библиотека SampoNLP и все сгенерированные ресурсы находятся в открытом доступе: https://github.com/AragonerUA/SampoNLP.
English
The quality of subword tokenization is critical for Large Language Models, yet evaluating tokenizers for morphologically rich Uralic languages is hampered by the lack of clean morpheme lexicons.
We introduce SampoNLP, a corpus-free toolkit for morphological lexicon creation using MDL-inspired Self-Referential Atomicity Scoring, which filters composite forms through internal structural cues - suited for low-resource settings.
Using the high-purity lexicons generated by SampoNLP for Finnish, Hungarian, and Estonian, we conduct a systematic evaluation of BPE tokenizers across a range of vocabulary sizes (8k-256k). We propose a unified metric, the Integrated Performance Score (IPS), to navigate the trade-off between morpheme coverage and over-splitting. By analyzing the IPS curves, we identify the "elbow points" of diminishing returns and provide the first empirically grounded recommendations for optimal vocabulary sizes (k) in these languages. Our study not only offers practical guidance but also quantitatively demonstrates the limitations of standard BPE for highly agglutinative languages. The SampoNLP library and all generated resources are made publicly available: https://github.com/AragonerUA/SampoNLP