ChatPaper.aiChatPaper

Un protocole hybride pour la génération de corpus sémantiques à grande échelle dans les langues peu dotées : Le corpus de relations sémantiques turques

A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus

January 19, 2026
papers.authors: Ebubekir Tosun, Mehmet Emin Buldur, Özay Ezerceli, Mahmoud ElHussieni
cs.AI

papers.abstract

Nous présentons une méthodologie hybride pour générer des ensembles de données à grande échelle de relations sémantiques dans les langues peu dotées, démontrée par la création d'un corpus complet de relations sémantiques turques. Notre approche intègre trois phases : (1) l'utilisation d'embeddings FastText avec un clustering agglomératif pour identifier des clusters sémantiques, (2) l'emploi de Gemini 2.5-Flash pour la classification automatisée des relations sémantiques, et (3) l'intégration de sources dictionnairiques curatisées. L'ensemble de données résultant comprend 843 000 paires sémantiques turques uniques, couvrant trois types de relations (synonymes, antonymes, co-hyponymes), représentant une augmentation d'échelle par 10 par rapport aux ressources existantes pour un coût minime (65 $). Nous validons le jeu de données via deux tâches en aval : un modèle d'embedding atteignant une précision de rappel top-1 de 90 % et un modèle de classification obtenant un F1-macro de 90 %. Notre protocole scalable répond à la pénurie critique de données en TALN turc et démontre son applicabilité à d'autres langues peu dotées. Nous rendons publics le jeu de données et les modèles.
English
We present a hybrid methodology for generating large-scale semantic relationship datasets in low-resource languages, demonstrated through a comprehensive Turkish semantic relations corpus. Our approach integrates three phases: (1) FastText embeddings with Agglomerative Clustering to identify semantic clusters, (2) Gemini 2.5-Flash for automated semantic relationship classification, and (3) integration with curated dictionary sources. The resulting dataset comprises 843,000 unique Turkish semantic pairs across three relationship types (synonyms, antonyms, co-hyponyms) representing a 10x scale increase over existing resources at minimal cost ($65). We validate the dataset through two downstream tasks: an embedding model achieving 90% top-1 retrieval accuracy and a classification model attaining 90% F1-macro. Our scalable protocol addresses critical data scarcity in Turkish NLP and demonstrates applicability to other low-resource languages. We publicly release the dataset and models.
PDF11January 22, 2026