Além da Similaridade de Cosseno: Dominando o Desvio Semântico e a Intrusão de Antónimos num Grafo de Sinónimos Turco com 15 Milhões de Nós

Resumo

Os embeddings neurais têm uma limitação notória: não conseguem distinguir de forma confiável sinônimos de antônimos. Consequentemente, aumentar os limiares de similaridade frequentemente falha em impedir que opostos sejam agrupados. Construímos um sistema de clustering semântico em larga escala especificamente projetado para enfrentar este problema de frente. Nosso *pipeline* processa 15 milhões de itens lexicais, avalia 520 milhões de relações potenciais e, por fim, gera 2,9 milhões de clusters semânticos de alta precisão. O sistema faz três contribuições principais. Primeiro, introduzimos um conjunto de dados rotulado de 843.000 pares de conceitos abrangendo sinonímia, antonímia e co-hiponímia, construído através de aumento de dados com o LLM Gemini 2.5-Flash e verificado usando recursos dicionarísticos curados por humanos. Segundo, propomos um discriminador especializado de relações semânticas de três vias que atinge 90% de F1-macro, permitindo uma desambiguação robusta para além da similaridade bruta de *embeddings*. Terceiro, introduzimos um novo algoritmo de clustering progressivo (*soft-to-hard*) que mitiga o *drift* semântico, prevenindo cadeias transitivas errôneas (ex.: quente -> picante -> dor -> depressão) enquanto resolve simultaneamente a polissemia. Nossa abordagem emprega um procedimento de expansão-poda em dois estágios, ciente da topologia e com votação topológica, garantindo que cada termo seja atribuído a exatamente um cluster semanticamente coerente. O recurso resultante permite busca semântica e geração aumentada por recuperação de alta precisão, particularmente para línguas morfologicamente ricas e de baixos recursos, onde as bases de sinônimos existentes ainda são escassas.

English

Neural embeddings have a notorious blind spot: they can't reliably tell synonyms apart from antonyms. Consequently, increasing similarity thresholds often fails to prevent opposites from being grouped together. We've built a large-scale semantic clustering system specifically designed to tackle this problem head on. Our pipeline chews through 15 million lexical items, evaluates a massive 520 million potential relationships, and ultimately generates 2.9 million high-precision semantic clusters. The system makes three primary contributions. First, we introduce a labeled dataset of 843,000 concept pairs spanning synonymy, antonymy, and co-hyponymy, constructed via Gemini 2.5-Flash LLM augmentation and verified using human-curated dictionary resources. Second, we propose a specialized three-way semantic relation discriminator that achieves 90% macro-F1, enabling robust disambiguation beyond raw embedding similarity. Third, we introduce a novel soft-to-hard clustering algorithm that mitigates semantic drift preventing erroneous transitive chains (e.g., hot -> spicy -> pain -> depression) while simultaneously resolving polysemy. Our approach employs a topology-aware two-stage expansion-pruning procedure with topological voting, ensuring that each term is assigned to exactly one semantically coherent cluster. The resulting resource enables high-precision semantic search and retrieval-augmented generation, particularly for morphologically rich and low-resource languages where existing synonym databases remain sparse.

Além da Similaridade de Cosseno: Dominando o Desvio Semântico e a Intrusão de Antónimos num Grafo de Sinónimos Turco com 15 Milhões de Nós

Beyond Cosine Similarity: Taming Semantic Drift and Antonym Intrusion in a 15-Million Node Turkish Synonym Graph

Resumo

Support