Morpheus: Um Tokenizador Neural e Incorporador de Palavras Consciente de Morfologia para o Turco

Resumo

O turco é uma língua aglutinante: o significado é veiculado por morfemas. No entanto, os tokenizadores de subpalavras que impulsionam os modelos de linguagem modernos fragmentam as palavras com base em estatísticas de corpus, desmembrando sufixos semanticamente carregados e — no caso do WordPiece e de analisadores baseados em regras — falhando em decodificar sua saída de volta ao texto original. Este artigo apresenta o Morpheus, um modelo neural de fronteira de morfemas para o turco que é, ao mesmo tempo, um tokenizador sem perdas e consciente de morfologia e um produtor de embeddings de palavras. Um programa dinâmico diferenciável de Poisson-binomial transforma probabilidades de fronteira por caractere em pertinências suaves a morfemas durante o treinamento e em segmentos exatos na inferência, sem normalização de strings, de modo que decode(encode(w)) = w é válido por construção. Por ser um modelo neural, a mesma passagem direta que tokeniza também emite um embedding de palavra estruturado. Entre os tokenizadores reversíveis — os únicos válidos para geração — o Morpheus atinge o menor número de bits por caractere (1,425), aproximadamente dobra o alinhamento morfológico de referência da família de subpalavras (MorphScore macro-F1 0,61 vs. ~0,32) e utiliza cerca de 19% menos memória GPU do que tokenizadores de subpalavras com vocabulário de 64K. Como incorporador, os vetores Morpheus congelados lideram na recuperação lexical (MAP da família de raízes 0,85) e na verificação de mesma raiz (ROC-AUC 1,00), superando o recuperador multilingue BGE-M3 e o BERTurk; em tarefas dependentes de contexto e flexão (NER, sondagem de caso/número), os codificadores contextuais mais pesados permanecem à frente — uma troca que atribuímos à geometria centrada na raiz do Morpheus. Código: https://github.com/lonewolf-rd/TurkishMorpheus; modelo: https://huggingface.co/lonewolflab/Morpheus-TR-50K; demonstração interativa: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.

English

Turkish is agglutinative: meaning is carried by morphemes, yet the subword tokenizers that drive modern language models split words by corpus statistics, fragmenting semantically loaded suffixes and -- in the case of WordPiece and rule-based analyzers -- failing to decode their output back to the original text. This paper presents Morpheus, a neural morpheme-boundary model for Turkish that is at once a lossless, morphology-aware tokenizer and a word-embedding producer. A differentiable Poisson-binomial dynamic program turns per-character boundary probabilities into soft morpheme memberships during training and exact segments at inference, with no string normalization, so decode(encode(w)) = w holds by construction. Because the model is neural, the same forward pass that tokenizes also emits a structured word embedding. Among reversible tokenizers -- the only ones valid for generation -- Morpheus attains the lowest bits-per-character (1.425), roughly doubles the gold morphological alignment of the subword family (MorphScore macro-F1 0.61 vs.\ {sim}0.32), and uses {sim}19% less GPU memory than 64K-vocabulary subword tokenizers. As an embedder, frozen Morpheus vectors lead on lexical retrieval (root-family MAP 0.85) and same-root verification (ROC-AUC 1.00), surpassing the multilingual retriever BGE-M3 and BERTurk; on context- and inflection-dependent tasks (NER, case/number probing) the heavier contextual encoders remain ahead -- a trade-off we attribute to Morpheus's root-centric geometry. Code: https://github.com/lonewolf-rd/TurkishMorpheus; model: https://huggingface.co/lonewolflab/Morpheus-TR-50K; interactive demo: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.