Een Hybride Protocol voor Grootschalige Generatie van Semantische Datasets in Laagtaalrijke Talen: Het Corpus voor Semantische Relaties in het Turks

Samenvatting

Wij presenteren een hybride methodologie voor het genereren van grootschalige semantische-relatiedatasets in talen met weinig bronnen, gedemonstreerd via een uitgebreid corpus van semantische relaties voor het Turks. Onze aanpak integreert drie fasen: (1) FastText-embeddingen met agglomeratieve clustering om semantische clusters te identificeren, (2) Gemini 2.5-Flash voor geautomatiseerde classificatie van semantische relaties, en (3) integratie met gecuratiseerde woordenboeken. De resulterende dataset omvat 843.000 unieke Turkse semantische paren verdeeld over drie relatietypes (synoniemen, antoniemen, co-hyponiemen) en vertegenwoordigt een 10-voudige schaalvergroting ten opzichte van bestaande bronnen tegen minimale kosten ($65). Wij valideren de dataset via twee downstream-taken: een embeddingmodel dat een top-1-retrievalnauwkeurigheid van 90% behaalt en een classificatiemodel dat een F1-macro-score van 90% bereikt. Onze schaalbare protocollering lost het kritieke probleem van dataschaarste op voor Turkse NLP en toont toepasbaarheid voor andere talen met weinig bronnen. Wij stellen de dataset en modellen publiekelijk beschikbaar.

English

We present a hybrid methodology for generating large-scale semantic relationship datasets in low-resource languages, demonstrated through a comprehensive Turkish semantic relations corpus. Our approach integrates three phases: (1) FastText embeddings with Agglomerative Clustering to identify semantic clusters, (2) Gemini 2.5-Flash for automated semantic relationship classification, and (3) integration with curated dictionary sources. The resulting dataset comprises 843,000 unique Turkish semantic pairs across three relationship types (synonyms, antonyms, co-hyponyms) representing a 10x scale increase over existing resources at minimal cost ($65). We validate the dataset through two downstream tasks: an embedding model achieving 90% top-1 retrieval accuracy and a classification model attaining 90% F1-macro. Our scalable protocol addresses critical data scarcity in Turkish NLP and demonstrates applicability to other low-resource languages. We publicly release the dataset and models.

Een Hybride Protocol voor Grootschalige Generatie van Semantische Datasets in Laagtaalrijke Talen: Het Corpus voor Semantische Relaties in het Turks

A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus

Samenvatting

Support