Morpheus: Un tokenizador neuronal y generador de embeddings de palabras con conciencia morfológica para el turco

Resumen

El turco es una lengua aglutinante: el significado se transmite mediante morfemas, pero los tokenizadores de subpalabras que impulsan los modelos lingüísticos modernos dividen las palabras según estadísticas del corpus, fragmentando sufijos con carga semántica y —en el caso de WordPiece y los analizadores basados en reglas— sin poder decodificar su salida de vuelta al texto original. Este artículo presenta Morpheus, un modelo neuronal de límites de morfemas para turco que es, a la vez, un tokenizador sin pérdida y consciente de la morfología, y un productor de incrustaciones de palabras. Un programa dinámico diferenciable de Poisson-binomial convierte las probabilidades de límite por carácter en pertenencias suaves a morfemas durante el entrenamiento y en segmentos exactos en la inferencia, sin necesidad de normalización de cadenas, de modo que decode(encode(w)) = w se cumple por construcción. Al ser un modelo neuronal, el mismo pase hacia adelante que tokeniza también emite una incrustación de palabras estructurada. Entre los tokenizadores reversibles —los únicos válidos para generación—, Morpheus consigue el menor número de bits por carácter (1,425), aproximadamente duplica la alineación morfológica de referencia de la familia de subpalabras (MorphScore macro-F1 0,61 frente a ~0,32) y utiliza ~19% menos de memoria de GPU que los tokenizadores de subpalabras con vocabulario de 64K. Como incrustador, los vectores congelados de Morpheus lideran en recuperación léxica (MAP de familia de raíces 0,85) y verificación de misma raíz (ROC-AUC 1,00), superando al recuperador multilingüe BGE-M3 y a BERTurk; en tareas dependientes del contexto y la flexión (NER, sondas de caso/número), los codificadores contextuales más pesados siguen siendo superiores —una compensación que atribuimos a la geometría centrada en la raíz de Morpheus. Código: https://github.com/lonewolf-rd/TurkishMorpheus; modelo: https://huggingface.co/lonewolflab/Morpheus-TR-50K; demo interactiva: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.

English

Turkish is agglutinative: meaning is carried by morphemes, yet the subword tokenizers that drive modern language models split words by corpus statistics, fragmenting semantically loaded suffixes and -- in the case of WordPiece and rule-based analyzers -- failing to decode their output back to the original text. This paper presents Morpheus, a neural morpheme-boundary model for Turkish that is at once a lossless, morphology-aware tokenizer and a word-embedding producer. A differentiable Poisson-binomial dynamic program turns per-character boundary probabilities into soft morpheme memberships during training and exact segments at inference, with no string normalization, so decode(encode(w)) = w holds by construction. Because the model is neural, the same forward pass that tokenizes also emits a structured word embedding. Among reversible tokenizers -- the only ones valid for generation -- Morpheus attains the lowest bits-per-character (1.425), roughly doubles the gold morphological alignment of the subword family (MorphScore macro-F1 0.61 vs.\ {sim}0.32), and uses {sim}19% less GPU memory than 64K-vocabulary subword tokenizers. As an embedder, frozen Morpheus vectors lead on lexical retrieval (root-family MAP 0.85) and same-root verification (ROC-AUC 1.00), surpassing the multilingual retriever BGE-M3 and BERTurk; on context- and inflection-dependent tasks (NER, case/number probing) the heavier contextual encoders remain ahead -- a trade-off we attribute to Morpheus's root-centric geometry. Code: https://github.com/lonewolf-rd/TurkishMorpheus; model: https://huggingface.co/lonewolflab/Morpheus-TR-50K; interactive demo: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.