ChatPaper.aiChatPaper

Ein hybrides Protokoll zur Erzeugung groß angelegter semantischer Datensätze für ressourcenarme Sprachen: Das türkische Korpus semantischer Relationen

A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus

January 19, 2026
papers.authors: Ebubekir Tosun, Mehmet Emin Buldur, Özay Ezerceli, Mahmoud ElHussieni
cs.AI

papers.abstract

Wir stellen eine hybride Methodik zur Erstellung groß angelegter semantischer Beziehungsdatensätze für ressourcenarme Sprachen vor, demonstriert anhand eines umfassenden türkischen Korpus für semantische Relationen. Unser Ansatz integriert drei Phasen: (1) FastText-Einbettungen mit agglomerativem Clustering zur Identifikation semantischer Cluster, (2) Gemini 2.5-Flash zur automatisierten Klassifikation semantischer Beziehungen und (3) die Integration kuratierter Wörterbuchquellen. Der resultierende Datensatz umfasst 843.000 einzigartige türkische semantische Paare über drei Beziehungstypen hinweg (Synonyme, Antonyme, Kohyponyme) und stellt eine Verzehnfachung des Umfangs bestehender Ressourcen bei minimalen Kosten (65 US-Dollar) dar. Wir validieren den Datensatz anhand zweier Downstream-Aufgaben: Ein Einbettungsmodell erreicht eine Top-1-Trefferquote von 90 % und ein Klassifikationsmodell erzielt einen F1-Macro-Score von 90 %. Unser skalierbares Protokoll adressiert die kritische Datenknappheit in der türkischen Sprachverarbeitung und demonstriert die Übertragbarkeit auf andere ressourcenarme Sprachen. Wir veröffentlichen den Datensatz und die Modelle öffentlich.
English
We present a hybrid methodology for generating large-scale semantic relationship datasets in low-resource languages, demonstrated through a comprehensive Turkish semantic relations corpus. Our approach integrates three phases: (1) FastText embeddings with Agglomerative Clustering to identify semantic clusters, (2) Gemini 2.5-Flash for automated semantic relationship classification, and (3) integration with curated dictionary sources. The resulting dataset comprises 843,000 unique Turkish semantic pairs across three relationship types (synonyms, antonyms, co-hyponyms) representing a 10x scale increase over existing resources at minimal cost ($65). We validate the dataset through two downstream tasks: an embedding model achieving 90% top-1 retrieval accuracy and a classification model attaining 90% F1-macro. Our scalable protocol addresses critical data scarcity in Turkish NLP and demonstrates applicability to other low-resource languages. We publicly release the dataset and models.
PDF11January 22, 2026