SampoNLP: 서브워드 토크나이저 형태소 분석을 위한 자기 참조형 도구
SampoNLP: A Self-Referential Toolkit for Morphological Analysis of Subword Tokenizers
January 8, 2026
저자: Iaroslav Chelombitko, Ekaterina Chelombitko, Aleksey Komissarov
cs.AI
초록
하위 단어 토큰화의 품질은 대규모 언어 모델에 있어 핵심적이지만, 형태론적으로 풍부한 우랄어족 언어들의 토크나이저 평가는 정제된 형태소 사전의 부재로 어려움을 겪고 있다. 본 연구에서는 MDL에서 영감을 받은 자기 참조적 원자성 점수를 활용하여 내부 구조적 단서를 통해 합성 형태를 걸러내는, 저자원 환경에 적합한 코퍼스 무관 형태소 사전 구축 도구인 SampO NLP를 소개한다. SampO NLP로 생성된 핀란드어, 헝가리어, 에스토니아어의 고순도 형태소 사전을 사용하여 다양한 어휘 집합 크기(8k-256k) 범위에서 BPE 토크나이저의 체계적인 평가를 수행한다. 우리는 형태소 커버리지와 과도한 분할 사이의 상충 관계를 탐색하기 위해 통합 성능 점수(IPS)라는 통합 지표를 제안한다. IPS 곡선을 분석함으로써 수익 체감의 "엘보우 포인트"를 확인하고, 이들 언어에 대한 최적의 어휘 집합 크기(k)에 대한 첫 번째 실증 기반 권장 사항을 제시한다. 본 연구는 실용적인 지침을 제공할 뿐만 아니라, 고도로 교착적인 언어에 대한 표준 BPE의 한계를 정량적으로 입증한다. SampO NLP 라이브러리와 생성된 모든 자원은 공개적으로 이용 가능하다: https://github.com/AragonerUA/SampoNLP
English
The quality of subword tokenization is critical for Large Language Models, yet evaluating tokenizers for morphologically rich Uralic languages is hampered by the lack of clean morpheme lexicons.
We introduce SampoNLP, a corpus-free toolkit for morphological lexicon creation using MDL-inspired Self-Referential Atomicity Scoring, which filters composite forms through internal structural cues - suited for low-resource settings.
Using the high-purity lexicons generated by SampoNLP for Finnish, Hungarian, and Estonian, we conduct a systematic evaluation of BPE tokenizers across a range of vocabulary sizes (8k-256k). We propose a unified metric, the Integrated Performance Score (IPS), to navigate the trade-off between morpheme coverage and over-splitting. By analyzing the IPS curves, we identify the "elbow points" of diminishing returns and provide the first empirically grounded recommendations for optimal vocabulary sizes (k) in these languages. Our study not only offers practical guidance but also quantitatively demonstrates the limitations of standard BPE for highly agglutinative languages. The SampoNLP library and all generated resources are made publicly available: https://github.com/AragonerUA/SampoNLP