Au-delà de la similarité cosinus : Maîtriser la dérive sémantique et l'intrusion d'antonymes dans un graphe de synonymes turc de 15 millions de nœuds
Beyond Cosine Similarity: Taming Semantic Drift and Antonym Intrusion in a 15-Million Node Turkish Synonym Graph
January 19, 2026
papers.authors: Ebubekir Tosun, Mehmet Emin Buldur, Özay Ezerceli, Mahmoud ElHussieni
cs.AI
papers.abstract
Les plongements lexicaux présentent un angle mort notoire : ils ne peuvent pas distinguer de manière fiable les synonymes des antonymes. Par conséquent, l'augmentation des seuils de similarité échoue souvent à empêcher le regroupement des termes opposés. Nous avons construit un système de clustering sémantique à grande scale conçu spécifiquement pour résoudre ce problème de front. Notre pipeline traite 15 millions d'unités lexicales, évalue 520 millions de relations potentielles, et génère in fine 2,9 millions de clusters sémantiques de haute précision. Le système apporte trois contributions principales. Premièrement, nous présentons un jeu de données annoté de 843 000 paires de concepts couvrant la synonymie, l'antonymie et la co-hyponymie, construit par augmentation via le LLM Gemini 2.5-Flash et vérifié à l'aide de ressources dictionnairiques élaborées par des experts humains. Deuxièmement, nous proposons un discriminateur spécialisé de relations sémantiques à trois voies qui atteint un score macro-F1 de 90 %, permettant une désambiguïsation robuste qui va au-delà de la simple similarité des plongements. Troisièmement, nous introduisons un nouvel algorithme de clustering progressif (« soft-to-hard ») qui atténue la dérive sémantique en empêchant les chaînes transitives erronées (par exemple, chaud -> épicé -> douleur -> dépression) tout en résolvant la polysémie. Notre approche utilise une procédure en deux étapes d'expansion-élagage sensible à la topologie avec vote topologique, garantissant que chaque terme est affecté à un et un seul cluster sémantiquement cohérent. La ressource résultante permet une recherche sémantique de haute précision et une génération augmentée par retrieval, en particulier pour les langues à morphologie riche et les langues peu dotées où les bases de données synonymiques existantes restent rares.
English
Neural embeddings have a notorious blind spot: they can't reliably tell synonyms apart from antonyms. Consequently, increasing similarity thresholds often fails to prevent opposites from being grouped together. We've built a large-scale semantic clustering system specifically designed to tackle this problem head on. Our pipeline chews through 15 million lexical items, evaluates a massive 520 million potential relationships, and ultimately generates 2.9 million high-precision semantic clusters. The system makes three primary contributions. First, we introduce a labeled dataset of 843,000 concept pairs spanning synonymy, antonymy, and co-hyponymy, constructed via Gemini 2.5-Flash LLM augmentation and verified using human-curated dictionary resources. Second, we propose a specialized three-way semantic relation discriminator that achieves 90% macro-F1, enabling robust disambiguation beyond raw embedding similarity. Third, we introduce a novel soft-to-hard clustering algorithm that mitigates semantic drift preventing erroneous transitive chains (e.g., hot -> spicy -> pain -> depression) while simultaneously resolving polysemy. Our approach employs a topology-aware two-stage expansion-pruning procedure with topological voting, ensuring that each term is assigned to exactly one semantically coherent cluster. The resulting resource enables high-precision semantic search and retrieval-augmented generation, particularly for morphologically rich and low-resource languages where existing synonym databases remain sparse.