SampoNLP: サブワードトークナイザの形態論解析のための自己言及型ツールキット
SampoNLP: A Self-Referential Toolkit for Morphological Analysis of Subword Tokenizers
January 8, 2026
著者: Iaroslav Chelombitko, Ekaterina Chelombitko, Aleksey Komissarov
cs.AI
要旨
サブワードトークン化の品質は大規模言語モデルにおいて重要であるが、形態素が豊富なウラル語族の言語におけるトークナイザーの評価は、整備された形態素辞書の不足によって妨げられている。本研究では、MDLに着想を得た自己参照的原子性スコアリングを用いて、内部構造の手がかりを通じて複合形をフィルタリングする、コーパス非依存の形態素辞書構築ツールキットSampoNLPを提案する。これは低リソース環境に適している。SampoNLPによって生成されたフィンランド語、ハンガリー語、エストニア語の高純度辞書を用いて、様々な語彙サイズ(8k-256k)におけるBPEトークナイザーの体系的評価を実施する。形態素カバレッジと過剰分割のトレードオフを評価するため、統合性能スコア(IPS)という統一指標を提案する。IPS曲線を分析することで、収穫逓減の「エルボーポイント」を特定し、これらの言語における最適な語彙サイズ(k)について初めて実証に基づいた提言を行う。本研究は実用的な指針を提供するだけでなく、高度に膠着的な言語に対する標準BPEの限界を定量的に実証する。SampoNLPライブラリおよび生成された全リソースは公開されている:https://github.com/AragonerUA/SampoNLP
English
The quality of subword tokenization is critical for Large Language Models, yet evaluating tokenizers for morphologically rich Uralic languages is hampered by the lack of clean morpheme lexicons.
We introduce SampoNLP, a corpus-free toolkit for morphological lexicon creation using MDL-inspired Self-Referential Atomicity Scoring, which filters composite forms through internal structural cues - suited for low-resource settings.
Using the high-purity lexicons generated by SampoNLP for Finnish, Hungarian, and Estonian, we conduct a systematic evaluation of BPE tokenizers across a range of vocabulary sizes (8k-256k). We propose a unified metric, the Integrated Performance Score (IPS), to navigate the trade-off between morpheme coverage and over-splitting. By analyzing the IPS curves, we identify the "elbow points" of diminishing returns and provide the first empirically grounded recommendations for optimal vocabulary sizes (k) in these languages. Our study not only offers practical guidance but also quantitatively demonstrates the limitations of standard BPE for highly agglutinative languages. The SampoNLP library and all generated resources are made publicly available: https://github.com/AragonerUA/SampoNLP