Estratégias Ótimas de Subpalavras em Turco em Escala: Avaliação Sistemática da Interação entre Dados, Vocabulário e Morfologia

Resumo

A tokenização é uma escolha de projeto crucial para a modelagem neural de linguagem em línguas morfologicamente ricas (LMRs), como o turco, onde a aglutinação produtiva desafia tanto a eficiência do vocabulário quanto a fidelidade morfológica. Estudos anteriores exploraram famílias de tokenizadores e tamanhos de vocabulário, mas tipicamente (i) variam o vocabulário sem controlar sistematicamente o corpus de treinamento do tokenizador, (ii) fornecem diagnósticos intrínsecos limitados e (iii) avaliam uma fatia estreita de tarefas downstream. Apresentamos o primeiro estudo abrangente e fundamentado da tokenização por subpalavras para o turco; um "manifesto das subpalavras", que varia conjuntamente o tamanho do vocabulário e o tamanho do corpus de treinamento do tokenizador (acoplamento de dados e vocabulário), compara múltiplas famílias de tokenizadores sob orçamentos de parâmetros equivalentes (WordPiece, nível morfológico e baselines de caracteres) e avalia através de sondagens semânticas (NLI, STS, análise de sentimentos, NER), sintáticas (POS, análise de dependências) e sensíveis à morfologia. Para explicar por que os tokenizadores têm sucesso ou falham, introduzimos um kit de ferramentas de diagnóstico consciente da morfologia que vai além de agregados grosseiros, analisando micro/macro F1 a nível de fronteira, acertos de atomicidade do lema versus fronteiras de superfície desacoplados, índices de super/ sub-segmentação, distâncias de edição de caractere/palavra (CER/WER), taxas de continuação e cobertura por tipo de afixo e atomicidade a nível de token. Nossas contribuições são quádruplas: (i) uma investigação sistemática da tríade vocabulário-corpus-sucesso; (ii) um quadro de avaliação unificado e consciente da morfologia, ligando diagnósticos intrínsecos a resultados extrínsecos; (iii) comparações controladas identificando quando a tokenização a nível de caractere e a nível morfológico são vantajosas; e (iv) um lançamento de código aberto do código de avaliação, pipelines de tokenização e modelos. Como o primeiro trabalho do género, este "manifesto das subpalavras" oferece orientação acionável para a construção de tokenizadores eficazes em LMRs e estabelece uma base reproduzível para pesquisas futuras.

English

Tokenization is a pivotal design choice for neural language modeling in morphologically rich languages (MRLs) such as Turkish, where productive agglutination challenges both vocabulary efficiency and morphological fidelity. Prior studies have explored tokenizer families and vocabulary sizes but typically (i) vary vocabulary without systematically controlling the tokenizer's training corpus, (ii) provide limited intrinsic diagnostics, and (iii) evaluate a narrow slice of downstream tasks. We present the first comprehensive, principled study of Turkish subword tokenization; a "subwords manifest", that jointly varies vocabulary size and tokenizer training corpus size (data and vocabulary coupling), compares multiple tokenizer families under matched parameter budgets (WordPiece, morphology level, and character baselines), and evaluates across semantic (NLI, STS, sentiment analysis, NER), syntactic (POS, dependency parsing), and morphology-sensitive probes. To explain why tokenizers succeed or fail, we introduce a morphology-aware diagnostic toolkit that goes beyond coarse aggregates to boundary-level micro/macro F1, decoupled lemma atomicity vs. surface boundary hits, over/under-segmentation indices, character/word edit distances (CER/WER), continuation rates, and affix-type coverage and token-level atomicity. Our contributions are fourfold: (i) a systematic investigation of the vocabulary-corpus-success triad; (ii) a unified, morphology-aware evaluation framework linking intrinsic diagnostics to extrinsic outcomes; (iii) controlled comparisons identifying when character-level and morphology-level tokenization pay off; and (iv) an open-source release of evaluation code, tokenizer pipelines, and models. As the first work of its kind, this "subwords manifest" delivers actionable guidance for building effective tokenizers in MRLs and establishes a reproducible foundation for future research.

Estratégias Ótimas de Subpalavras em Turco em Escala: Avaliação Sistemática da Interação entre Dados, Vocabulário e Morfologia

Optimal Turkish Subword Strategies at Scale: Systematic Evaluation of Data, Vocabulary, Morphology Interplay

Resumo

Support