Strategie Ottimali per i Sottounità Lessicali Turche su Larga Scala: Valutazione Sistematica dell'Interazione tra Dati, Vocabolario e Morfologia

Abstract

La tokenizzazione è una scelta progettuale cruciale per la modellazione neurale del linguaggio nelle lingue morfologicamente ricche (MRL) come il turco, dove l'agglutinazione produttiva rappresenta una sfida sia per l'efficienza del vocabolario che per la fedeltà morfologica. Studi precedenti hanno esplorato famiglie di tokenizer e dimensioni del vocabolario, ma tipicamente (i) variano il vocabolario senza controllare sistematicamente il corpus di addestramento del tokenizer, (ii) forniscono diagnosi intrinseche limitate e (iii) valutano solo un ristretto insieme di task downstream. Presentiamo il primo studio completo e metodologicamente rigoroso sulla tokenizzazione a sottoparole per il turco; un "manifesto dei sottoparole", che varia congiuntamente la dimensione del vocabolario e la dimensione del corpus di addestramento del tokenizer (accoppiamento dati-vocabolario), confronta multiple famiglie di tokenizer con budget di parametri equivalenti (WordPiece, livello morfologico e baseline a caratteri) e valuta attraverso task semantici (NLI, STS, analisi del sentiment, NER), sintattici (POS, analisi delle dipendenze) e probe sensibili alla morfologia. Per spiegare perché i tokenizer hanno successo o falliscono, introduciamo un toolkit diagnostico consapevole della morfologia che va oltre gli aggregati grossolani, analizzando micro/macro F1 a livello di confine, hit sui confini superficiali vs. atomicità del lemma scompagnata, indici di over/under-segmentazione, distanze di modifica a carattere/parola (CER/WER), tassi di continuazione e copertura per tipo di affisso e atomicità a livello di token. I nostri contributi sono quadrupli: (i) un'indagine sistematica della triade vocabolario-corpus-successo; (ii) un framework di valutazione unificato e consapevole della morfologia che collega le diagnosi intrinseche ai risultati estrinseci; (iii) confronti controllati che identificano quando la tokenizzazione a livello di carattere e morfologico è vantaggiosa; e (iv) il rilascio open-source del codice di valutazione, delle pipeline dei tokenizer e dei modelli. Come primo lavoro nel suo genere, questo "manifesto dei sottoparole" fornisce linee guida operative per costruire tokenizer efficaci nelle MRL e stabilisce una base riproducibile per la ricerca futura.

English

Tokenization is a pivotal design choice for neural language modeling in morphologically rich languages (MRLs) such as Turkish, where productive agglutination challenges both vocabulary efficiency and morphological fidelity. Prior studies have explored tokenizer families and vocabulary sizes but typically (i) vary vocabulary without systematically controlling the tokenizer's training corpus, (ii) provide limited intrinsic diagnostics, and (iii) evaluate a narrow slice of downstream tasks. We present the first comprehensive, principled study of Turkish subword tokenization; a "subwords manifest", that jointly varies vocabulary size and tokenizer training corpus size (data and vocabulary coupling), compares multiple tokenizer families under matched parameter budgets (WordPiece, morphology level, and character baselines), and evaluates across semantic (NLI, STS, sentiment analysis, NER), syntactic (POS, dependency parsing), and morphology-sensitive probes. To explain why tokenizers succeed or fail, we introduce a morphology-aware diagnostic toolkit that goes beyond coarse aggregates to boundary-level micro/macro F1, decoupled lemma atomicity vs. surface boundary hits, over/under-segmentation indices, character/word edit distances (CER/WER), continuation rates, and affix-type coverage and token-level atomicity. Our contributions are fourfold: (i) a systematic investigation of the vocabulary-corpus-success triad; (ii) a unified, morphology-aware evaluation framework linking intrinsic diagnostics to extrinsic outcomes; (iii) controlled comparisons identifying when character-level and morphology-level tokenization pay off; and (iv) an open-source release of evaluation code, tokenizer pipelines, and models. As the first work of its kind, this "subwords manifest" delivers actionable guidance for building effective tokenizers in MRLs and establishes a reproducible foundation for future research.

Strategie Ottimali per i Sottounità Lessicali Turche su Larga Scala: Valutazione Sistematica dell'Interazione tra Dati, Vocabolario e Morfologia

Optimal Turkish Subword Strategies at Scale: Systematic Evaluation of Data, Vocabulary, Morphology Interplay

Abstract

Support