Jenseits der Kosinusähnlichkeit: Beherrschung von semantischer Drift und Antonym-Eindringen in einem 15-Millionen-Knoten-türkischen Synonymgraphen
Beyond Cosine Similarity: Taming Semantic Drift and Antonym Intrusion in a 15-Million Node Turkish Synonym Graph
January 19, 2026
papers.authors: Ebubekir Tosun, Mehmet Emin Buldur, Özay Ezerceli, Mahmoud ElHussieni
cs.AI
papers.abstract
Neuronale Einbettungen haben einen bekannten blinden Fleck: Sie können Synonyme nicht zuverlässig von Antonymen unterscheiden. Folglich führt das Erhöhen von Ähnlichkeitsschwellenwerten oft nicht dazu, dass Gegensätze voneinander getrennt werden. Wir haben ein groß angelegtes semantisches Clustering-System entwickelt, das speziell zur Lösung dieses Problems konzipiert ist. Unsere Pipeline verarbeitet 15 Millionen lexikalische Einheiten, bewertet 520 Millionen potenzielle Beziehungen und generiert schließlich 2,9 Millionen hochpräzise semantische Cluster. Das System leistet drei Hauptbeiträge. Erstens führen wir einen gelabelten Datensatz mit 843.000 Konzeptpaaren ein, der Synonymie, Antonymie und Ko-Hyponymie umfasst und durch Gemini 2.5-Flash-LLM-Augmentierung erstellt sowie mit human-kuratierten Wörterbuchressourcen verifiziert wurde. Zweitens schlagen wir einen spezialisierten dreistufigen semantischen Relationsdiskriminator vor, der einen macro-F1-Score von 90 % erreicht und eine robuste Disambiguierung jenseits reiner Einbettungsähnlichkeit ermöglicht. Drittens führen wir einen neuartigen Soft-to-Hard-Clustering-Algorithmus ein, der semantischen Drift abmildert und fehlerhafte transitive Ketten (z.B. heiß -> scharf -> Schmerz -> Depression) verhindert, während gleichzeitig Polysemie aufgelöst wird. Unser Ansatz verwendet ein topologiebewusstes Zwei-Stufen-Expansions-Beschneidungs-Verfahren mit topologischem Voting, das sicherstellt, dass jeder Begriff genau einem semantisch kohärenten Cluster zugeordnet wird. Die resultierende Ressource ermöglicht hochpräzise semantische Suche und Retrieval-Augmented Generation, insbesondere für morphologisch komplexe und ressourcenschwache Sprachen, in denen bestehende Synonymdatenbanken nach wie vor spärlich sind.
English
Neural embeddings have a notorious blind spot: they can't reliably tell synonyms apart from antonyms. Consequently, increasing similarity thresholds often fails to prevent opposites from being grouped together. We've built a large-scale semantic clustering system specifically designed to tackle this problem head on. Our pipeline chews through 15 million lexical items, evaluates a massive 520 million potential relationships, and ultimately generates 2.9 million high-precision semantic clusters. The system makes three primary contributions. First, we introduce a labeled dataset of 843,000 concept pairs spanning synonymy, antonymy, and co-hyponymy, constructed via Gemini 2.5-Flash LLM augmentation and verified using human-curated dictionary resources. Second, we propose a specialized three-way semantic relation discriminator that achieves 90% macro-F1, enabling robust disambiguation beyond raw embedding similarity. Third, we introduce a novel soft-to-hard clustering algorithm that mitigates semantic drift preventing erroneous transitive chains (e.g., hot -> spicy -> pain -> depression) while simultaneously resolving polysemy. Our approach employs a topology-aware two-stage expansion-pruning procedure with topological voting, ensuring that each term is assigned to exactly one semantically coherent cluster. The resulting resource enables high-precision semantic search and retrieval-augmented generation, particularly for morphologically rich and low-resource languages where existing synonym databases remain sparse.