코사인 유사도 이상: 1,500만 노드 튀르키예어 동의어 그래프에서의 의미 변화와 반의어 침투 현상 극복하기
Beyond Cosine Similarity: Taming Semantic Drift and Antonym Intrusion in a 15-Million Node Turkish Synonym Graph
January 19, 2026
저자: Ebubekir Tosun, Mehmet Emin Buldur, Özay Ezerceli, Mahmoud ElHussieni
cs.AI
초록
신경망 임베딩은 notorious한 한계점을 지니고 있습니다: 동의어와 반의어를 신뢰성 있게 구분하지 못한다는 것입니다. 이로 인해 유사도 임계값을 높여도 반대 개념들이 함께 묶이는 것을 막기 어렵습니다. 우리는 이 문제를 직접 해결하기 위해 대규모 의미론적 클러스터링 시스템을 구축했습니다. 우리의 파이프라인은 1,500만 개의 어휘 항목을 처리하고, 무려 5억 2,000만 개의 잠재적 관계를 평가하며, 최종적으로 290만 개의 고정밀 의미론적 클러스터를 생성합니다. 본 시스템은 세 가지 주요 기여점을 갖습니다. 첫째, Gemini 2.5-Flash LLM 증강을 통해 구축하고 인간이 편집한 사전 자원으로 검증한, 동의 관계, 반의 관계, 공하위어 관계를 아우르는 843,000개 개념 쌍의 레이블된 데이터셋을 도입합니다. 둘째, 90%의 macro-F1 성능을 달성하여 원시 임베딩 유사도를 넘어선 강력한 의미 중의성 해소를 가능하게 하는 전문적인 3-way 의미 관계 판별기를 제안합니다. 셋째, 의미 변이(semantic drift)를 완화하여 잘못된 추이적 연결(예: hot -> spicy -> pain -> depression)을 방지하면서 동시에 다의성을 해결하는 새로운 soft-to-hard 클러스터링 알고리즘을 소개합니다. 우리의 접근 방식은 위상 인식(topology-aware) 2단계 확장-제거 절차와 위상 투표를 채택하여 각 용어가 정확히 하나의 의미론적으로 일관된 클러스터에 할당되도록 보장합니다. 그 결과물은 특히 기존 동의어 데이터베이스가 부족한 형태론적으로 풍부하고 저자원 언어에서 고정밀 의미 검색 및 검색 증강 생성에 활용할 수 있는 자원을 제공합니다.
English
Neural embeddings have a notorious blind spot: they can't reliably tell synonyms apart from antonyms. Consequently, increasing similarity thresholds often fails to prevent opposites from being grouped together. We've built a large-scale semantic clustering system specifically designed to tackle this problem head on. Our pipeline chews through 15 million lexical items, evaluates a massive 520 million potential relationships, and ultimately generates 2.9 million high-precision semantic clusters. The system makes three primary contributions. First, we introduce a labeled dataset of 843,000 concept pairs spanning synonymy, antonymy, and co-hyponymy, constructed via Gemini 2.5-Flash LLM augmentation and verified using human-curated dictionary resources. Second, we propose a specialized three-way semantic relation discriminator that achieves 90% macro-F1, enabling robust disambiguation beyond raw embedding similarity. Third, we introduce a novel soft-to-hard clustering algorithm that mitigates semantic drift preventing erroneous transitive chains (e.g., hot -> spicy -> pain -> depression) while simultaneously resolving polysemy. Our approach employs a topology-aware two-stage expansion-pruning procedure with topological voting, ensuring that each term is assigned to exactly one semantically coherent cluster. The resulting resource enables high-precision semantic search and retrieval-augmented generation, particularly for morphologically rich and low-resource languages where existing synonym databases remain sparse.