대규모 저자원 언어 의미론 데이터셋 생성을 위한 하이브리드 프로토콜: 튀르키예어 의미 관계 코퍼스
A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus
January 19, 2026
저자: Ebubekir Tosun, Mehmet Emin Buldur, Özay Ezerceli, Mahmoud ElHussieni
cs.AI
초록
저자원 언어에서 대규모 의미 관계 데이터셋을 구축하기 위한 하이브리드 방법론을 제안하며, 포괄적인 터키어 의미 관계 코퍼스를 통해 그 효과성을 입증한다. 본 접근법은 세 단계를 통합한다: (1) FastText 임베딩과 Agglomerative Clustering을 활용한 의미 클러스터 식별, (2) Gemini 2.5-Flash 기반 자동 의미 관계 분류, (3) 정제된 사전 자료와의 통합. 결과 데이터셋은 세 가지 관계 유형(동의어, 반의어, 공하위어)에 걸친 843,000개의 고유 터키어 의미 쌍으로 구성되며, 기존 자원 대비 10배 규모 확대를 최소 비용(65달러)으로 달성했다. 데이터셋 검증을 위해 두 가지 다운스트림 태스크를 수행한 결과, 임베딩 모델은 90%의 Top-1 검색 정확도를, 분류 모델은 90%의 F1-macro 점수를 각각 기록했다. 본 확장 가능한 프로토콜은 터키어 자연어처리 분야의 심각한 데이터 부족 문제를 해결하며 다른 저자원 언어에도 적용 가능함을 입증한다. 데이터셋과 모델을 공개한다.
English
We present a hybrid methodology for generating large-scale semantic relationship datasets in low-resource languages, demonstrated through a comprehensive Turkish semantic relations corpus. Our approach integrates three phases: (1) FastText embeddings with Agglomerative Clustering to identify semantic clusters, (2) Gemini 2.5-Flash for automated semantic relationship classification, and (3) integration with curated dictionary sources. The resulting dataset comprises 843,000 unique Turkish semantic pairs across three relationship types (synonyms, antonyms, co-hyponyms) representing a 10x scale increase over existing resources at minimal cost ($65). We validate the dataset through two downstream tasks: an embedding model achieving 90% top-1 retrieval accuracy and a classification model attaining 90% F1-macro. Our scalable protocol addresses critical data scarcity in Turkish NLP and demonstrates applicability to other low-resource languages. We publicly release the dataset and models.