Morpheus: Een morfologiebewuste neurale tokenizer en woordembedder voor het Turks

Samenvatting

Turks is agglutinerend: betekenis wordt gedragen door morfemen, maar de subwoordtokenizers die moderne taalmodellen aansturen, splitsen woorden op basis van corpusstatistieken, waardoor semantisch belaste achtervoegsels worden gefragmenteerd – en bij WordPiece en regelgebaseerde analyzers – lukt het niet om hun output terug te decoderen naar de originele tekst. Dit artikel presenteert Morpheus, een neuraal morfeemgrens-model voor Turks dat tegelijkertijd een verliesloze, morfologiebewuste tokenizer en een woord-embedding-producent is. Een differentieerbaar Poisson-binomiaal dynamisch programma zet per-karakter kansgrenzen om in zachte morfeemlidmaatschappen tijdens training en exacte segmenten tijdens inferentie, zonder stringnormalisatie, zodat decode(encode(w)) = w per constructie geldt. Omdat het model neuraal is, produceert dezelfde forward pass die tokeniseert ook een gestructureerde woordembedding. Onder de omkeerbare tokenizers – de enige die geldig zijn voor generatie – behaalt Morpheus de laagste bits per teken (1,425), verdubbelt het ruwweg de gouden morfologische uitlijning van de subwoordfamilie (MorphScore macro-F1 0,61 vs. ~0,32), en gebruikt het ~19% minder GPU-geheugen dan subwoordtokenizers met een vocabulaire van 64K. Als embedder leiden bevroren Morpheus-vectoren bij lexicale retrieval (root-family MAP 0,85) en same-root verificatie (ROC-AUC 1,00), waarmee ze de meertalige retriever BGE-M3 en BERTurk overtreffen; bij context- en flexieafhankelijke taken (NER, case/number probing) blijven de zwaardere contextuele encoders voorop – een afweging die we toeschrijven aan de root-centrische geometrie van Morpheus. Code: https://github.com/lonewolf-rd/TurkishMorpheus; model: https://huggingface.co/lonewolflab/Morpheus-TR-50K; interactieve demo: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.

English

Turkish is agglutinative: meaning is carried by morphemes, yet the subword tokenizers that drive modern language models split words by corpus statistics, fragmenting semantically loaded suffixes and -- in the case of WordPiece and rule-based analyzers -- failing to decode their output back to the original text. This paper presents Morpheus, a neural morpheme-boundary model for Turkish that is at once a lossless, morphology-aware tokenizer and a word-embedding producer. A differentiable Poisson-binomial dynamic program turns per-character boundary probabilities into soft morpheme memberships during training and exact segments at inference, with no string normalization, so decode(encode(w)) = w holds by construction. Because the model is neural, the same forward pass that tokenizes also emits a structured word embedding. Among reversible tokenizers -- the only ones valid for generation -- Morpheus attains the lowest bits-per-character (1.425), roughly doubles the gold morphological alignment of the subword family (MorphScore macro-F1 0.61 vs.\ {sim}0.32), and uses {sim}19% less GPU memory than 64K-vocabulary subword tokenizers. As an embedder, frozen Morpheus vectors lead on lexical retrieval (root-family MAP 0.85) and same-root verification (ROC-AUC 1.00), surpassing the multilingual retriever BGE-M3 and BERTurk; on context- and inflection-dependent tasks (NER, case/number probing) the heavier contextual encoders remain ahead -- a trade-off we attribute to Morpheus's root-centric geometry. Code: https://github.com/lonewolf-rd/TurkishMorpheus; model: https://huggingface.co/lonewolflab/Morpheus-TR-50K; interactive demo: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.