ChatPaper.aiChatPaper

コサイン類似度を超えて:1,500万ノードのトルコ語類義語グラフにおけるセマンティックドリフトと反意語侵入の制御

Beyond Cosine Similarity: Taming Semantic Drift and Antonym Intrusion in a 15-Million Node Turkish Synonym Graph

January 19, 2026
著者: Ebubekir Tosun, Mehmet Emin Buldur, Özay Ezerceli, Mahmoud ElHussieni
cs.AI

要旨

ニューラル埋め込みには有名な弱点がある。それは、類義語と反義語を確実に区別できないことだ。このため、類似度の閾値を上げても、反対語が同じグループに分類されるのを防げないことが多い。我々は、この問題に正面から取り組むために設計された大規模な意味クラスタリングシステムを構築した。このパイプラインは1500万の語彙項目を処理し、5億2000万もの潜在的な関係性を評価し、最終的に290万の高精度な意味クラスターを生成する。本システムは主に3つの貢献がある。第一に、Gemini 2.5-Flash LLMによる拡張を用いて構築し、人手で整備された辞書リソースを用いて検証した、類義語、反義語、共下位語にまたがる84万3000の概念ペアからなるラベル付きデータセットを導入する。第二に、90%のマクロF1値を達成する専門的な三方向の意味関係識別器を提案し、生の埋め込み類似度を超えた頑健な曖昧性解消を可能にする。第三に、意味的ドリフトを軽減し、誤った推移連鎖(例: hot -> spicy -> pain -> depression)を防ぎながら、多義性を解決する新しいソフトからハードへのクラスタリングアルゴリズムを導入する。我々のアプローチは、トポロジーを考慮した2段階の拡張・剪定プロセスとトポロジカル投票を採用し、各用語が厳密に一つの意味的に首尾一貫したクラスターに割り当てられることを保証する。その結果得られるリソースは、高精度な意味検索と検索拡張生成を可能にし、特に形態的に豊かでリソースの少ない言語において、既存の類義語データベースが乏しい状況を改善する。
English
Neural embeddings have a notorious blind spot: they can't reliably tell synonyms apart from antonyms. Consequently, increasing similarity thresholds often fails to prevent opposites from being grouped together. We've built a large-scale semantic clustering system specifically designed to tackle this problem head on. Our pipeline chews through 15 million lexical items, evaluates a massive 520 million potential relationships, and ultimately generates 2.9 million high-precision semantic clusters. The system makes three primary contributions. First, we introduce a labeled dataset of 843,000 concept pairs spanning synonymy, antonymy, and co-hyponymy, constructed via Gemini 2.5-Flash LLM augmentation and verified using human-curated dictionary resources. Second, we propose a specialized three-way semantic relation discriminator that achieves 90% macro-F1, enabling robust disambiguation beyond raw embedding similarity. Third, we introduce a novel soft-to-hard clustering algorithm that mitigates semantic drift preventing erroneous transitive chains (e.g., hot -> spicy -> pain -> depression) while simultaneously resolving polysemy. Our approach employs a topology-aware two-stage expansion-pruning procedure with topological voting, ensuring that each term is assigned to exactly one semantically coherent cluster. The resulting resource enables high-precision semantic search and retrieval-augmented generation, particularly for morphologically rich and low-resource languages where existing synonym databases remain sparse.
PDF11January 22, 2026