Voorbij Cosinusovereenkomst: Het Beteugelen van Semantische Drift en Antonieminvasie in een 15-Miljoen Knoppen Tellend Turks Synoniemengraf

Samenvatting

Neuronale embeddings hebben een beruchte blinde vlek: ze kunnen niet betrouwbaar onderscheid maken tussen synoniemen en antoniemen. Als gevolg daarvan voorkomt het verhogen van de gelijkenisdrempel vaak niet dat tegenpolen bij elkaar worden gegroepeerd. Wij hebben een grootschalig semantisch clusteringsysteem gebouwd dat specifiek is ontworpen om dit probleem rechtstreeks aan te pakken. Onze pijplijn verwerkt 15 miljoen lexicale eenheden, evalueert een enorme 520 miljoen potentiële relaties en genereert uiteindelijk 2,9 miljoen semantische clusters met hoge precisie. Het systeem levert drie primaire bijdragen. Ten eerste introduceren we een gelabelde dataset van 843.000 conceptparen die synonimie, antonimie en co-hyponimie omspant, opgebouwd via Gemini 2.5-Flash LLM-augmentatie en geverifieerd met behulp van door mensen samengestelde woordenboekbronnen. Ten tweede stellen we een gespecialiseerde driedelige semantische relatie-discriminator voor die een macro-F1-score van 90% behaalt, wat robuuste disambiguatie mogelijk maakt die verder gaat dan ruwe embeddingsgelijkenis. Ten derde introduceren we een nieuw soft-to-hard clusteringalgoritme dat semantische drift beperkt, waardoor foutieve transitieve ketens worden voorkomen (bijv. heet -> pikant -> pijn -> depressie) en tegelijkertijd polysemie wordt opgelost. Onze aanpak hanteert een topologiebewuste tweefasen procedure van expansie-snoei met topologische stemmen, die ervoor zorgt dat elke term aan precies één semantisch coherent cluster wordt toegewezen. De resulterende bron maakt semantisch zoeken en retrieval-augmented generation met hoge precisie mogelijk, met name voor morfologisch rijke en talen met weinig bronmateriaal, waar bestaande synoniemendatabanken schaars blijven.

English

Neural embeddings have a notorious blind spot: they can't reliably tell synonyms apart from antonyms. Consequently, increasing similarity thresholds often fails to prevent opposites from being grouped together. We've built a large-scale semantic clustering system specifically designed to tackle this problem head on. Our pipeline chews through 15 million lexical items, evaluates a massive 520 million potential relationships, and ultimately generates 2.9 million high-precision semantic clusters. The system makes three primary contributions. First, we introduce a labeled dataset of 843,000 concept pairs spanning synonymy, antonymy, and co-hyponymy, constructed via Gemini 2.5-Flash LLM augmentation and verified using human-curated dictionary resources. Second, we propose a specialized three-way semantic relation discriminator that achieves 90% macro-F1, enabling robust disambiguation beyond raw embedding similarity. Third, we introduce a novel soft-to-hard clustering algorithm that mitigates semantic drift preventing erroneous transitive chains (e.g., hot -> spicy -> pain -> depression) while simultaneously resolving polysemy. Our approach employs a topology-aware two-stage expansion-pruning procedure with topological voting, ensuring that each term is assigned to exactly one semantically coherent cluster. The resulting resource enables high-precision semantic search and retrieval-augmented generation, particularly for morphologically rich and low-resource languages where existing synonym databases remain sparse.

Voorbij Cosinusovereenkomst: Het Beteugelen van Semantische Drift en Antonieminvasie in een 15-Miljoen Knoppen Tellend Turks Synoniemengraf

Beyond Cosine Similarity: Taming Semantic Drift and Antonym Intrusion in a 15-Million Node Turkish Synonym Graph

Samenvatting

Support