Um Protocolo Híbrido para Geração de Conjuntos de Dados Semânticos em Larga Escala para Idiomas de Recursos Limitados: O Corpus de Relações Semânticas do Turco

Resumo

Apresentamos uma metodologia híbrida para a geração de conjuntos de dados em larga escala de relações semânticas em línguas de baixos recursos, demonstrada através de um corpus abrangente de relações semânticas para o turco. Nossa abordagem integra três fases: (1) embeddings FastText com *Agglomerative Clustering* para identificar clusters semânticos, (2) Gemini 2.5-Flash para a classificação automática de relações semânticas, e (3) integração com fontes lexicais curadas. O conjunto de dados resultante compreende 843.000 pares semânticos únicos em turco, abrangendo três tipos de relação (sinônimos, antônimos, co-hipônimos), representando um aumento de escala de 10x em relação aos recursos existentes a um custo mínimo (US$ 65). Validamos o conjunto de dados por meio de duas tarefas subsequentes: um modelo de *embeddings* que atingiu 90% de precisão *top-1* em recuperação e um modelo de classificação que alcançou 90% de F1-macro. Nosso protocolo escalável aborda a escassez crítica de dados no PLN para o turco e demonstra aplicabilidade a outras línguas de baixos recursos. Disponibilizamos publicamente o conjunto de dados e os modelos.

English

We present a hybrid methodology for generating large-scale semantic relationship datasets in low-resource languages, demonstrated through a comprehensive Turkish semantic relations corpus. Our approach integrates three phases: (1) FastText embeddings with Agglomerative Clustering to identify semantic clusters, (2) Gemini 2.5-Flash for automated semantic relationship classification, and (3) integration with curated dictionary sources. The resulting dataset comprises 843,000 unique Turkish semantic pairs across three relationship types (synonyms, antonyms, co-hyponyms) representing a 10x scale increase over existing resources at minimal cost ($65). We validate the dataset through two downstream tasks: an embedding model achieving 90% top-1 retrieval accuracy and a classification model attaining 90% F1-macro. Our scalable protocol addresses critical data scarcity in Turkish NLP and demonstrates applicability to other low-resource languages. We publicly release the dataset and models.