Un protocollo ibrido per la generazione su larga scala di dataset semantici in lingue a risorse limitate: il Corpus delle Relazioni Semantiche Turche

Abstract

Presentiamo una metodologia ibrida per generare dataset su larga scala di relazioni semantiche in lingue a bassa disponibilità di risorse, dimostrata attraverso un corpus completo di relazioni semantiche per il turco. Il nostro approccio integra tre fasi: (1) utilizzo di embedding FastText con Clustering Agglomerativo per identificare cluster semantici, (2) impiego di Gemini 2.5-Flash per la classificazione automatica delle relazioni semantiche, e (3) integrazione con fonti lessicali curate. Il dataset risultante comprende 843.000 coppie semantiche uniche in turco, distribuite su tre tipi di relazione (sinonimi, contrari, co-iponimi), rappresentando un incremento di scala di 10 volte rispetto alle risorse esistenti a un costo minimo (65$). Convalidiamo il dataset attraverso due task downstream: un modello di embedding che raggiunge una precisione top-1 del 90% nel retrieval e un modello di classificazione che ottiene un punteggio F1-macro del 90%. Il nostro protocollo scalabile affronta la critica carenza di dati per l'NLP in turco e dimostra l'applicabilità ad altre lingue a bassa disponibilità di risorse. Rilasciamo pubblicamente il dataset e i modelli.

English

We present a hybrid methodology for generating large-scale semantic relationship datasets in low-resource languages, demonstrated through a comprehensive Turkish semantic relations corpus. Our approach integrates three phases: (1) FastText embeddings with Agglomerative Clustering to identify semantic clusters, (2) Gemini 2.5-Flash for automated semantic relationship classification, and (3) integration with curated dictionary sources. The resulting dataset comprises 843,000 unique Turkish semantic pairs across three relationship types (synonyms, antonyms, co-hyponyms) representing a 10x scale increase over existing resources at minimal cost ($65). We validate the dataset through two downstream tasks: an embedding model achieving 90% top-1 retrieval accuracy and a classification model attaining 90% F1-macro. Our scalable protocol addresses critical data scarcity in Turkish NLP and demonstrates applicability to other low-resource languages. We publicly release the dataset and models.

Un protocollo ibrido per la generazione su larga scala di dataset semantici in lingue a risorse limitate: il Corpus delle Relazioni Semantiche Turche

A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus

Abstract

Support