Un Protocolo Híbrido para la Generación de Conjuntos de Datos Semánticos a Gran Escala en Lenguas de Recursos Limitados: El Corpus de Relaciones Semánticas del Turco
A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus
January 19, 2026
Autores: Ebubekir Tosun, Mehmet Emin Buldur, Özay Ezerceli, Mahmoud ElHussieni
cs.AI
Resumen
Presentamos una metodología híbrida para generar conjuntos de datos a gran escala de relaciones semánticas en lenguas de recursos limitados, demostrada mediante un corpus integral de relaciones semánticas para el turco. Nuestro enfoque integra tres fases: (1) embeddings de FastText con Agrupamiento Jerárquico Aglomerativo para identificar clusters semánticos, (2) Gemini 2.5-Flash para la clasificación automática de relaciones semánticas, y (3) integración con fuentes léxicas curadas. El conjunto de datos resultante comprende 843,000 pares semánticos únicos en turco, distribuidos en tres tipos de relaciones (sinónimos, antónimos, co-hipónimos), lo que representa un incremento de escala de 10x sobre los recursos existentes a un costo mínimo (65 USD). Validamos el conjunto de datos mediante dos tareas posteriores: un modelo de embeddings que logra un 90% de precisión top-1 en recuperación y un modelo de clasificación que alcanza un 90% de F1-macro. Nuestro protocolo escalable aborda la escasez crítica de datos en PLN para el turco y demuestra aplicabilidad para otras lenguas de recursos limitados. Liberamos públicamente el conjunto de datos y los modelos.
English
We present a hybrid methodology for generating large-scale semantic relationship datasets in low-resource languages, demonstrated through a comprehensive Turkish semantic relations corpus. Our approach integrates three phases: (1) FastText embeddings with Agglomerative Clustering to identify semantic clusters, (2) Gemini 2.5-Flash for automated semantic relationship classification, and (3) integration with curated dictionary sources. The resulting dataset comprises 843,000 unique Turkish semantic pairs across three relationship types (synonyms, antonyms, co-hyponyms) representing a 10x scale increase over existing resources at minimal cost ($65). We validate the dataset through two downstream tasks: an embedding model achieving 90% top-1 retrieval accuracy and a classification model attaining 90% F1-macro. Our scalable protocol addresses critical data scarcity in Turkish NLP and demonstrates applicability to other low-resource languages. We publicly release the dataset and models.