ChatPaper.aiChatPaper

低リソース言語における大規模意味データセット構築のためのハイブリッドプロトコル:トルコ語意味関係コーパス

A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus

January 19, 2026
著者: Ebubekir Tosun, Mehmet Emin Buldur, Özay Ezerceli, Mahmoud ElHussieni
cs.AI

要旨

本論文では、低リソース言語における大規模な意味関係データセットを生成するためのハイブリッド手法を提案し、包括的なトルコ語意味関係コーパスを通じて実証する。本アプローチは3つの段階を統合する:(1) FastText埋め込みと凝集型クラスタリングによる意味クラスタの同定、(2) Gemini 2.5-Flashを用いた自動意味関係分類、(3) 厳選された辞書リソースとの統合。生成されたデータセットは、3種類の関係タイプ(同義語、反義語、共下位語)にわたる843,000のユニークなトルコ語意味ペアから構成され、既存リソース比10倍の規模を僅か65ドルのコストで実現した。当データセットは、2つの下流タスクを通じて検証する:トップ1検索精度90%を達成した埋め込みモデル、およびF1-macro 90%を達成した分類モデルである。本スケーラブルなプロトコルは、トルコ語自然言語処理における深刻なデータ不足問題に対処し、他の低リソース言語への適用可能性を実証する。データセットとモデルは公開する。
English
We present a hybrid methodology for generating large-scale semantic relationship datasets in low-resource languages, demonstrated through a comprehensive Turkish semantic relations corpus. Our approach integrates three phases: (1) FastText embeddings with Agglomerative Clustering to identify semantic clusters, (2) Gemini 2.5-Flash for automated semantic relationship classification, and (3) integration with curated dictionary sources. The resulting dataset comprises 843,000 unique Turkish semantic pairs across three relationship types (synonyms, antonyms, co-hyponyms) representing a 10x scale increase over existing resources at minimal cost ($65). We validate the dataset through two downstream tasks: an embedding model achieving 90% top-1 retrieval accuracy and a classification model attaining 90% F1-macro. Our scalable protocol addresses critical data scarcity in Turkish NLP and demonstrates applicability to other low-resource languages. We publicly release the dataset and models.
PDF11January 22, 2026