Морфеус: Морфологически-ориентированный нейронный токенизатор и эмбеддер слов для турецкого языка

Аннотация

Турецкий язык является агглютинативным: значение передается морфемами, однако субсловные токенизаторы, лежащие в основе современных языковых моделей, разбивают слова на основе статистики корпуса, фрагментируя семантически нагруженные суффиксы и — в случае WordPiece и анализаторов, основанных на правилах — не в состоянии декодировать свой вывод обратно в исходный текст. В данной статье представлен Morpheus — нейронная модель границ морфем для турецкого языка, которая одновременно является обратимым (без потерь) токенизатором, учитывающим морфологию, и генератором вложений слов. Дифференцируемая динамическая программа на основе пуассоновского биномиального распределения преобразует вероятности границ для каждого символа в мягкие принадлежности к морфемам во время обучения и в точные сегменты во время вывода, без нормализации строки, так что decode(encode(w)) = w выполняется по построению. Поскольку модель является нейронной, тот же прямой проход, который выполняет токенизацию, также выдает структурированное вложение слова. Среди обратимых токенизаторов — единственных, пригодных для генерации, — Morpheus достигает наименьшего количества битов на символ (1,425), примерно вдвое улучшает золотое морфологическое выравнивание субсловного семейства (MorphScore macro-F1 0,61 против ~0,32) и использует примерно на 19% меньше памяти GPU, чем субсловные токенизаторы со словарем из 64K. В качестве генератора вложений замороженные векторы Morpheus лидируют в лексическом поиске (root-family MAP 0,85) и верификации слов с общим корнем (ROC-AUC 1,00), превосходя мультиязычный поисковик BGE-M3 и BERTurk; в задачах, зависящих от контекста и словоизменения (NER, зондирование падежа/числа), более тяжелые контекстные кодировщики остаются впереди — компромисс, который мы объясняем корнецентрической геометрией Morpheus. Код: https://github.com/lonewolf-rd/TurkishMorpheus; модель: https://huggingface.co/lonewolflab/Morpheus-TR-50K; интерактивное демо: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.

English

Turkish is agglutinative: meaning is carried by morphemes, yet the subword tokenizers that drive modern language models split words by corpus statistics, fragmenting semantically loaded suffixes and -- in the case of WordPiece and rule-based analyzers -- failing to decode their output back to the original text. This paper presents Morpheus, a neural morpheme-boundary model for Turkish that is at once a lossless, morphology-aware tokenizer and a word-embedding producer. A differentiable Poisson-binomial dynamic program turns per-character boundary probabilities into soft morpheme memberships during training and exact segments at inference, with no string normalization, so decode(encode(w)) = w holds by construction. Because the model is neural, the same forward pass that tokenizes also emits a structured word embedding. Among reversible tokenizers -- the only ones valid for generation -- Morpheus attains the lowest bits-per-character (1.425), roughly doubles the gold morphological alignment of the subword family (MorphScore macro-F1 0.61 vs.\ {sim}0.32), and uses {sim}19% less GPU memory than 64K-vocabulary subword tokenizers. As an embedder, frozen Morpheus vectors lead on lexical retrieval (root-family MAP 0.85) and same-root verification (ROC-AUC 1.00), surpassing the multilingual retriever BGE-M3 and BERTurk; on context- and inflection-dependent tasks (NER, case/number probing) the heavier contextual encoders remain ahead -- a trade-off we attribute to Morpheus's root-centric geometry. Code: https://github.com/lonewolf-rd/TurkishMorpheus; model: https://huggingface.co/lonewolflab/Morpheus-TR-50K; interactive demo: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.