Oltre la Similarità del Coseno: Controllare la Deriva Semantica e l'Intrusione di Antonomi in un Grafo di Sinonimi Turco da 15 Milioni di Nodi

Abstract

Gli embedding neurali presentano una nota lacuna: non riescono a distinguere in modo affidabile i sinonimi dagli antonimi. Di conseguenza, l'aumento delle soglie di similarità spesso non impedisce che gli opposti vengano raggruppati insieme. Abbiamo costruito un sistema di clustering semantico su larga scala specificamente progettato per affrontare direttamente questo problema. La nostra pipeline elabora 15 milioni di elementi lessicali, valuta 520 milioni di potenziali relazioni e genera infine 2,9 milioni di cluster semantici ad alta precisione. Il sistema apporta tre contributi principali. In primo luogo, introduciamo un dataset etichettato di 843.000 coppie di concetti che abbracciano sinonimia, antonimia e co-iponimia, costruito tramite augmentazione con il LLM Gemini 2.5-Flash e verificato utilizzando risorse lessicografiche curate da esperti umani. In secondo luogo, proponiamo un discriminatore specializzato per relazioni semantiche a tre vie che raggiunge il 90% di macro-F1, consentendo una robusta disambiguazione che va oltre la semplice similarità grezza degli embedding. In terzo luogo, introduciamo un nuovo algoritmo di clustering soft-to-hard che mitiga la deriva semantica, prevenendo catene transitive errate (ad esempio, caldo -> piccante -> dolore -> depressione) risolvendo simultaneamente la polisemia. Il nostro approccio utilizza una procedura di espansione-potatura a due stadi topologicamente consapevole con voto topologico, garantendo che ogni termine venga assegnato a esattamente un cluster semanticamente coerente. La risorsa risultante consente una ricerca semantica e una generazione aumentata dal retrieval ad alta precisione, in particolare per le lingue con morfologia ricca e a risorse limitate, dove i database di sinonimi esistenti rimangono scarsi.

English

Neural embeddings have a notorious blind spot: they can't reliably tell synonyms apart from antonyms. Consequently, increasing similarity thresholds often fails to prevent opposites from being grouped together. We've built a large-scale semantic clustering system specifically designed to tackle this problem head on. Our pipeline chews through 15 million lexical items, evaluates a massive 520 million potential relationships, and ultimately generates 2.9 million high-precision semantic clusters. The system makes three primary contributions. First, we introduce a labeled dataset of 843,000 concept pairs spanning synonymy, antonymy, and co-hyponymy, constructed via Gemini 2.5-Flash LLM augmentation and verified using human-curated dictionary resources. Second, we propose a specialized three-way semantic relation discriminator that achieves 90% macro-F1, enabling robust disambiguation beyond raw embedding similarity. Third, we introduce a novel soft-to-hard clustering algorithm that mitigates semantic drift preventing erroneous transitive chains (e.g., hot -> spicy -> pain -> depression) while simultaneously resolving polysemy. Our approach employs a topology-aware two-stage expansion-pruning procedure with topological voting, ensuring that each term is assigned to exactly one semantically coherent cluster. The resulting resource enables high-precision semantic search and retrieval-augmented generation, particularly for morphologically rich and low-resource languages where existing synonym databases remain sparse.

Oltre la Similarità del Coseno: Controllare la Deriva Semantica e l'Intrusione di Antonomi in un Grafo di Sinonimi Turco da 15 Milioni di Nodi

Beyond Cosine Similarity: Taming Semantic Drift and Antonym Intrusion in a 15-Million Node Turkish Synonym Graph

Abstract

Support