ChatPaper.aiChatPaper

Гибридный протокол для генерации крупномасштабных семантических наборов данных в условиях ограниченных языковых ресурсов: Корпус семантических отношений турецкого языка

A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus

January 19, 2026
Авторы: Ebubekir Tosun, Mehmet Emin Buldur, Özay Ezerceli, Mahmoud ElHussieni
cs.AI

Аннотация

Мы представляем гибридную методологию для генерации масштабных наборов данных семантических отношений в языках с ограниченными ресурсами, демонстрируя её на примере создания всеобъемлющего корпуса семантических отношений для турецкого языка. Наш подход интегрирует три этапа: (1) использование эмбеддингов FastText с агломеративной кластеризацией для выявления семантических кластеров, (2) применение модели Gemini 2.5-Flash для автоматической классификации семантических отношений и (3) интеграция с курируемыми словарными источниками. Полученный набор данных включает 843 000 уникальных семантических пар турецкого языка по трём типам отношений (синонимы, антонимы, ко-гипонимы), что представляет собой 10-кратное увеличение масштаба по сравнению с существующими ресурсами при минимальной стоимости ($65). Мы валидируем набор данных с помощью двух прикладных задач: модель эмбеддингов демонстрирует точность top-1 извлечения 90%, а классификационная модель достигает 90% по метрике F1-макро. Наш масштабируемый протокол решает проблему критической нехватки данных для турецкого NLP и демонстрирует применимость к другим языкам с ограниченными ресурсами. Мы публично выпускаем набор данных и модели.
English
We present a hybrid methodology for generating large-scale semantic relationship datasets in low-resource languages, demonstrated through a comprehensive Turkish semantic relations corpus. Our approach integrates three phases: (1) FastText embeddings with Agglomerative Clustering to identify semantic clusters, (2) Gemini 2.5-Flash for automated semantic relationship classification, and (3) integration with curated dictionary sources. The resulting dataset comprises 843,000 unique Turkish semantic pairs across three relationship types (synonyms, antonyms, co-hyponyms) representing a 10x scale increase over existing resources at minimal cost ($65). We validate the dataset through two downstream tasks: an embedding model achieving 90% top-1 retrieval accuracy and a classification model attaining 90% F1-macro. Our scalable protocol addresses critical data scarcity in Turkish NLP and demonstrates applicability to other low-resource languages. We publicly release the dataset and models.
PDF11January 22, 2026