SampoNLP: Un Conjunto de Herramientas Autorreferencial para el Análisis Morfológico de Tokenizadores de Subpalabras
SampoNLP: A Self-Referential Toolkit for Morphological Analysis of Subword Tokenizers
January 8, 2026
Autores: Iaroslav Chelombitko, Ekaterina Chelombitko, Aleksey Komissarov
cs.AI
Resumen
La calidad de la tokenización por subpalabras es crucial para los Modelos de Lenguaje a Gran Escala, sin embargo, la evaluación de tokenizadores para las lenguas urálicas, morfológicamente ricas, se ve dificultada por la falta de léxicos de morfemas limpios. Presentamos SampoNLP, un kit de herramientas independiente de corpus para la creación de léxicos morfológicos que utiliza una Puntuación de Atomicidad Autorreferencial inspirada en el Principio de Longitud Mínima de Descripción (MDL), la cual filtra formas compuestas mediante pistas estructurales internas, siendo adecuada para entornos de recursos limitados. Utilizando los léxicos de alta pureza generados por SampoNLP para el finés, el húngaro y el estonio, realizamos una evaluación sistemática de tokenizadores BPE en un rango de tamaños de vocabulario (8k-256k). Proponemos una métrica unificada, la Puntuación de Rendimiento Integrado (IPS), para navegar la compensación entre la cobertura de morfemas y la segmentación excesiva. Al analizar las curvas de IPS, identificamos los "puntos de codo" de rendimientos decrecientes y proporcionamos las primeras recomendaciones empíricamente fundamentadas para los tamaños de vocabulario óptimos (k) en estas lenguas. Nuestro estudio no solo ofrece una guía práctica, sino que también demuestra cuantitativamente las limitaciones del BPE estándar para lenguas altamente aglutinantes. La biblioteca SampoNLP y todos los recursos generados están disponibles públicamente: https://github.com/AragonerUA/SampoNLP
English
The quality of subword tokenization is critical for Large Language Models, yet evaluating tokenizers for morphologically rich Uralic languages is hampered by the lack of clean morpheme lexicons.
We introduce SampoNLP, a corpus-free toolkit for morphological lexicon creation using MDL-inspired Self-Referential Atomicity Scoring, which filters composite forms through internal structural cues - suited for low-resource settings.
Using the high-purity lexicons generated by SampoNLP for Finnish, Hungarian, and Estonian, we conduct a systematic evaluation of BPE tokenizers across a range of vocabulary sizes (8k-256k). We propose a unified metric, the Integrated Performance Score (IPS), to navigate the trade-off between morpheme coverage and over-splitting. By analyzing the IPS curves, we identify the "elbow points" of diminishing returns and provide the first empirically grounded recommendations for optimal vocabulary sizes (k) in these languages. Our study not only offers practical guidance but also quantitatively demonstrates the limitations of standard BPE for highly agglutinative languages. The SampoNLP library and all generated resources are made publicly available: https://github.com/AragonerUA/SampoNLP