ChatPaper.aiChatPaper

Más Allá de la Similitud Coseno: Controlando la Deriva Semántica y la Intrusión de Antónimos en un Grafo de Sinónimos Turco de 15 Millones de Nodos

Beyond Cosine Similarity: Taming Semantic Drift and Antonym Intrusion in a 15-Million Node Turkish Synonym Graph

January 19, 2026
Autores: Ebubekir Tosun, Mehmet Emin Buldur, Özay Ezerceli, Mahmoud ElHussieni
cs.AI

Resumen

Los embeddings neuronales presentan una notable limitación: no pueden distinguir de forma fiable entre sinónimos y antónimos. En consecuencia, aumentar los umbrales de similitud a menudo no logra evitar que los opuestos se agrupen. Hemos construido un sistema de agrupación semántica a gran escala diseñado específicamente para abordar este problema de frente. Nuestra canalización procesa 15 millones de elementos léxicos, evalúa 520 millones de relaciones potenciales y genera finalmente 2.9 millones de agrupaciones semánticas de alta precisión. El sistema realiza tres contribuciones principales. Primero, presentamos un conjunto de datos etiquetado de 843,000 pares de conceptos que abarcan sinonimia, antonimia y co-hiponimia, construido mediante aumentación con el modelo de lenguaje grande Gemini 2.5-Flash y verificado utilizando recursos diccionariales curados por humanos. Segundo, proponemos un discriminador especializado de relaciones semánticas de tres vías que alcanza un 90% de F1-macro, permitiendo una desambiguación robusta más allá de la similitud cruda de embeddings. Tercero, introducimos un novedoso algoritmo de agrupación de blanda a dura que mitiga la deriva semántica, previniendo cadenas transitivas erróneas (por ejemplo, calor -> picante -> dolor -> depresión) mientras resuelve simultáneamente la polisemia. Nuestro enfoque emplea un procedimiento de expansión-poda en dos etapas consciente de la topología, con votación topológica, asegurando que cada término sea asignado a exactamente un grupo semánticamente coherente. El recurso resultante permite una búsqueda semántica y una generación aumentada por recuperación de alta precisión, particularmente para lenguas morfológicamente ricas y de bajos recursos donde las bases de datos de sinónimos existentes siguen siendo escasas.
English
Neural embeddings have a notorious blind spot: they can't reliably tell synonyms apart from antonyms. Consequently, increasing similarity thresholds often fails to prevent opposites from being grouped together. We've built a large-scale semantic clustering system specifically designed to tackle this problem head on. Our pipeline chews through 15 million lexical items, evaluates a massive 520 million potential relationships, and ultimately generates 2.9 million high-precision semantic clusters. The system makes three primary contributions. First, we introduce a labeled dataset of 843,000 concept pairs spanning synonymy, antonymy, and co-hyponymy, constructed via Gemini 2.5-Flash LLM augmentation and verified using human-curated dictionary resources. Second, we propose a specialized three-way semantic relation discriminator that achieves 90% macro-F1, enabling robust disambiguation beyond raw embedding similarity. Third, we introduce a novel soft-to-hard clustering algorithm that mitigates semantic drift preventing erroneous transitive chains (e.g., hot -> spicy -> pain -> depression) while simultaneously resolving polysemy. Our approach employs a topology-aware two-stage expansion-pruning procedure with topological voting, ensuring that each term is assigned to exactly one semantically coherent cluster. The resulting resource enables high-precision semantic search and retrieval-augmented generation, particularly for morphologically rich and low-resource languages where existing synonym databases remain sparse.
PDF11January 22, 2026