Morpheus : un tokenizer neuronal et un plongeur de mots conscients de la morphologie pour le turc

Résumé

Le turc est une langue agglutinante : le sens est porté par des morphèmes, pourtant les tokeniseurs de sous-mots qui animent les modèles de langue modernes segmentent les mots selon les statistiques de corpus, fragmentant les suffixes chargés sémantiquement et – dans le cas de WordPiece et des analyseurs à base de règles – échouant à décoder leur sortie pour revenir au texte original. Cet article présente Morpheus, un modèle neuronal de frontières de morphèmes pour le turc qui est à la fois un tokeniseur sans perte et conscient de la morphologie, et un producteur de plongements lexicaux. Un programme dynamique poisson-binomial différentiable transforme les probabilités de frontière par caractère en appartenances souples aux morphèmes pendant l’entraînement et en segments exacts à l’inférence, sans normalisation de chaîne, de sorte que decode(encode(w)) = w est garanti par construction. Parce que le modèle est neuronal, la même passe avant qui tokenise émet également un plongement lexical structuré. Parmi les tokeniseurs réversibles – les seuls valables pour la génération – Morpheus atteint le plus faible nombre de bits par caractère (1,425), double approximativement l’alignement morphologique de référence de la famille de sous-mots (macro-F1 MorphScore 0,61 contre ~0,32) et utilise ~19% de mémoire GPU en moins que les tokeniseurs de sous-mots à vocabulaire 64K. En tant que plongeur, les vecteurs Morpheus gelés mènent sur la recherche lexicale (MAP de famille de racines 0,85) et la vérification de racine identique (AUC-ROC 1,00), surpassant le répéteur multilingue BGE-M3 et BERTurk ; sur les tâches dépendantes du contexte et de l’inflexion (NER, sondage cas/nombre), les encodeurs contextuels plus lourds restent en tête – un compromis que nous attribuons à la géométrie centrée sur la racine de Morpheus. Code : https://github.com/lonewolf-rd/TurkishMorpheus ; modèle : https://huggingface.co/lonewolflab/Morpheus-TR-50K ; démo interactive : https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.

English

Turkish is agglutinative: meaning is carried by morphemes, yet the subword tokenizers that drive modern language models split words by corpus statistics, fragmenting semantically loaded suffixes and -- in the case of WordPiece and rule-based analyzers -- failing to decode their output back to the original text. This paper presents Morpheus, a neural morpheme-boundary model for Turkish that is at once a lossless, morphology-aware tokenizer and a word-embedding producer. A differentiable Poisson-binomial dynamic program turns per-character boundary probabilities into soft morpheme memberships during training and exact segments at inference, with no string normalization, so decode(encode(w)) = w holds by construction. Because the model is neural, the same forward pass that tokenizes also emits a structured word embedding. Among reversible tokenizers -- the only ones valid for generation -- Morpheus attains the lowest bits-per-character (1.425), roughly doubles the gold morphological alignment of the subword family (MorphScore macro-F1 0.61 vs.\ {sim}0.32), and uses {sim}19% less GPU memory than 64K-vocabulary subword tokenizers. As an embedder, frozen Morpheus vectors lead on lexical retrieval (root-family MAP 0.85) and same-root verification (ROC-AUC 1.00), surpassing the multilingual retriever BGE-M3 and BERTurk; on context- and inflection-dependent tasks (NER, case/number probing) the heavier contextual encoders remain ahead -- a trade-off we attribute to Morpheus's root-centric geometry. Code: https://github.com/lonewolf-rd/TurkishMorpheus; model: https://huggingface.co/lonewolflab/Morpheus-TR-50K; interactive demo: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.