ChatPaper.aiChatPaper

Помимо косинусного сходства: устранение семантического дрейфа и проникновения антонимов в графе синонимов турецкого языка объемом 15 миллионов узлов

Beyond Cosine Similarity: Taming Semantic Drift and Antonym Intrusion in a 15-Million Node Turkish Synonym Graph

January 19, 2026
Авторы: Ebubekir Tosun, Mehmet Emin Buldur, Özay Ezerceli, Mahmoud ElHussieni
cs.AI

Аннотация

Нейронные эмбеддинги имеют известный слепой участок: они не могут надежно отличать синонимы от антонимов. Как следствие, повышение порогов схожести часто не предотвращает объединение противоположностей в одну группу. Мы создали крупномасштабную систему семантической кластеризации, специально разработанную для решения этой проблемы. Наш конвейер обрабатывает 15 миллионов лексических единиц, оценивает колоссальные 520 миллионов потенциальных отношений и в конечном итоге генерирует 2,9 миллиона высокоточных семантических кластеров. Система вносит три основных вклада. Во-первых, мы представляем размеченный набор данных из 843 000 пар концепций, охватывающих синонимию, антонимию и ко-гипонимию, созданный с помощью аугментации на основе LLM Gemini 2.5-Flash и проверенный с использованием курируемых человеком словарных ресурсов. Во-вторых, мы предлагаем специализированный дискриминатор трехсторонних семантических отношений, который достигает макро-F1 90%, обеспечивая надежное разрешение неоднозначности за пределами простой схожести эмбеддингов. В-третьих, мы представляем новый алгоритм мягко-жесткой кластеризации, который смягчает семантический дрейф, предотвращая ошибочные транзитивные цепочки (например, горячий -> острый -> боль -> депрессия), и одновременно разрешает полисемию. Наш подход использует топологически-осознанную двухэтапную процедуру расширения-обрезки с топологическим голосованием, гарантируя, что каждый термин назначается ровно одному семантически связному кластеру. Полученный ресурс обеспечивает высокоточный семантический поиск и генерацию с усилением за счет извлечения информации, особенно для морфологически богатых и малоресурсных языков, где существующие базы данных синонимов остаются скудными.
English
Neural embeddings have a notorious blind spot: they can't reliably tell synonyms apart from antonyms. Consequently, increasing similarity thresholds often fails to prevent opposites from being grouped together. We've built a large-scale semantic clustering system specifically designed to tackle this problem head on. Our pipeline chews through 15 million lexical items, evaluates a massive 520 million potential relationships, and ultimately generates 2.9 million high-precision semantic clusters. The system makes three primary contributions. First, we introduce a labeled dataset of 843,000 concept pairs spanning synonymy, antonymy, and co-hyponymy, constructed via Gemini 2.5-Flash LLM augmentation and verified using human-curated dictionary resources. Second, we propose a specialized three-way semantic relation discriminator that achieves 90% macro-F1, enabling robust disambiguation beyond raw embedding similarity. Third, we introduce a novel soft-to-hard clustering algorithm that mitigates semantic drift preventing erroneous transitive chains (e.g., hot -> spicy -> pain -> depression) while simultaneously resolving polysemy. Our approach employs a topology-aware two-stage expansion-pruning procedure with topological voting, ensuring that each term is assigned to exactly one semantically coherent cluster. The resulting resource enables high-precision semantic search and retrieval-augmented generation, particularly for morphologically rich and low-resource languages where existing synonym databases remain sparse.
PDF11January 22, 2026