SampoNLP: Un Toolkit Auto-Riferente per l'Analisi Morfologica dei Tokenizzatori di Sottoparole

Abstract

La qualità della tokenizzazione a livello di sottoparola è fondamentale per i Modelli Linguistici di Grande Dimensione, ma la valutazione dei tokenizer per le lingue uraliche morfologicamente ricche è ostacolata dalla mancanza di lessemi morfematici puliti. Presentiamo SampoNLP, un toolkit che non richiede corpora per la creazione di lessici morfologici, utilizzando uno Scoring di Atomicità Auto-Riferita ispirato al Principio di Lunghezza Descrittiva Minima (MDL), che filtra le forme composite attraverso indizi strutturali interni, adatto per contesti con risorse limitate. Utilizzando i lessici ad alta purezza generati da SampoNLP per finlandese, ungherese ed estone, conduciamo una valutazione sistematica dei tokenizer BPE su un'ampia gamma di dimensioni del vocabolario (8k-256k). Proponiamo una metrica unificata, il Punteggio di Prestazione Integrato (IPS), per bilanciare il compromesso tra copertura morfematica e suddivisione eccessiva. Analizzando le curve IPS, identifichiamo i "punti di gomito" di rendimenti decrescenti e forniamo le prime raccomandazioni empiricamente fondate per le dimensioni ottimali del vocabolario (k) in queste lingue. Il nostro studio non solo offre una guida pratica, ma dimostra anche quantitativamente i limiti del BPE standard per le lingue altamente agglutinanti. La libreria SampoNLP e tutte le risorse generate sono rese pubbliche: https://github.com/AragonerUA/SampoNLP

English

The quality of subword tokenization is critical for Large Language Models, yet evaluating tokenizers for morphologically rich Uralic languages is hampered by the lack of clean morpheme lexicons. We introduce SampoNLP, a corpus-free toolkit for morphological lexicon creation using MDL-inspired Self-Referential Atomicity Scoring, which filters composite forms through internal structural cues - suited for low-resource settings. Using the high-purity lexicons generated by SampoNLP for Finnish, Hungarian, and Estonian, we conduct a systematic evaluation of BPE tokenizers across a range of vocabulary sizes (8k-256k). We propose a unified metric, the Integrated Performance Score (IPS), to navigate the trade-off between morpheme coverage and over-splitting. By analyzing the IPS curves, we identify the "elbow points" of diminishing returns and provide the first empirically grounded recommendations for optimal vocabulary sizes (k) in these languages. Our study not only offers practical guidance but also quantitatively demonstrates the limitations of standard BPE for highly agglutinative languages. The SampoNLP library and all generated resources are made publicly available: https://github.com/AragonerUA/SampoNLP

SampoNLP: Un Toolkit Auto-Riferente per l'Analisi Morfologica dei Tokenizzatori di Sottoparole

SampoNLP: A Self-Referential Toolkit for Morphological Analysis of Subword Tokenizers

Abstract

Support