SampoNLP: Um Kit de Ferramentas Autorreferencial para Análise Morfológica de Tokenizadores de Subpalavras

Resumo

A qualidade da tokenização por subpalavras é crucial para os Modelos de Linguagem de Grande Porte, mas a avaliação de tokenizadores para línguas urálicas morfologicamente ricas é dificultada pela falta de léxicos morfológicos limpos. Apresentamos o SampoNLP, um kit de ferramentas independente de corpus para criação de léxicos morfológicos que utiliza Pontuação de Atomicidade Autorreferencial inspirada no Princípio do Mínimo Descrição (MDL), a qual filtra formas compostas através de pistas estruturais internas - adequado para contextos de baixos recursos. Utilizando os léxicos de alta pureza gerados pelo SampoNLP para finlandês, húngaro e estoniano, realizamos uma avaliação sistemática de tokenizadores BPE (Byte-Pair Encoding) em uma variedade de tamanhos de vocabulário (8k-256k). Propomos uma métrica unificada, o *Integrated Performance Score* (IPS), para navegar o compromisso entre a cobertura de morfemas e a segmentação excessiva. Ao analisar as curvas de IPS, identificamos os "pontos de inflexão" de retornos decrescentes e fornecemos as primeiras recomendações empiricamente fundamentadas para tamanhos de vocabulário ótimos (k) nessas línguas. Nosso estudo não apenas oferece orientação prática, mas também demonstra quantitativamente as limitações do BPE padrão para línguas altamente aglutinantes. A biblioteca SampoNLP e todos os recursos gerados estão publicamente disponíveis: https://github.com/AragonerUA/SampoNLP

English

The quality of subword tokenization is critical for Large Language Models, yet evaluating tokenizers for morphologically rich Uralic languages is hampered by the lack of clean morpheme lexicons. We introduce SampoNLP, a corpus-free toolkit for morphological lexicon creation using MDL-inspired Self-Referential Atomicity Scoring, which filters composite forms through internal structural cues - suited for low-resource settings. Using the high-purity lexicons generated by SampoNLP for Finnish, Hungarian, and Estonian, we conduct a systematic evaluation of BPE tokenizers across a range of vocabulary sizes (8k-256k). We propose a unified metric, the Integrated Performance Score (IPS), to navigate the trade-off between morpheme coverage and over-splitting. By analyzing the IPS curves, we identify the "elbow points" of diminishing returns and provide the first empirically grounded recommendations for optimal vocabulary sizes (k) in these languages. Our study not only offers practical guidance but also quantitatively demonstrates the limitations of standard BPE for highly agglutinative languages. The SampoNLP library and all generated resources are made publicly available: https://github.com/AragonerUA/SampoNLP