Wikontic: 대규모 언어 모델을 활용한 Wikidata 기반 온톨로지 인식 지식 그래프 구축
Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models
November 29, 2025
저자: Alla Chepurova, Aydar Bulatov, Yuri Kuratov, Mikhail Burtsev
cs.AI
초록
지식 그래프(KG)는 대규모 언어 모델(LLM)에 구조화되고 검증 가능한 기반을 제공하지만, 현재 LLM 기반 시스템은 일반적으로 KG를 텍스트 검색을 위한 보조 구조로 활용하여 그 내재적 품질을 충분히 탐구하지 못하고 있다. 본 연구에서는 오픈 도메인 텍스트로부터 KG를 구축하는 다단계 파이프라인인 Wikontic을 제안한다. 이는 한정자가 포함된 후보 트리플릿을 추출하고, Wikidata 기반 유형 및 관계 제약 조건을 적용하며, 중복을 줄이기 위해 엔티티를 정규화하는 과정으로 구성된다. 그 결과 생성된 KG는 간결하고 온톨로지에 부합하며 연결성이 뛰어나다. MuSiQue에서 정답 엔티티는 생성된 트리플릿의 96%에 나타난다. HotpotQA에서 우리의 트리플릿 전용 설정은 76.0 F1, MuSiQue에서 59.8 F1을 달성하여 여전히 텍스트 컨텍스트가 필요한 여러 검색 증강 생성 기준 모델을 능가하거나 그에 버금간다. 또한 Wikontic은 MINE-1 벤치마크에서 최첨단 정보 보존 성능(86%)을 달성하여 기존 KG 구축 방법들을 능가한다. Wikontic은 구축 시간 측면에서도 효율적이다. KG 구축에 1,000개 미만의 출력 토큰을 사용하며, 이는 AriGraph보다 약 3배, GraphRAG의 1/20 미만에 해당한다. 제안된 파이프라인은 생성된 KG의 품질을 향상시키고 LLM에서 구조화된 지식을 활용하기 위한 확장 가능한 솔루션을 제공한다.
English
Knowledge graphs (KGs) provide structured, verifiable grounding for large language models (LLMs), but current LLM-based systems commonly use KGs as auxiliary structures for text retrieval, leaving their intrinsic quality underexplored. In this work, we propose Wikontic, a multi-stage pipeline that constructs KGs from open-domain text by extracting candidate triplets with qualifiers, enforcing Wikidata-based type and relation constraints, and normalizing entities to reduce duplication. The resulting KGs are compact, ontology-consistent, and well-connected; on MuSiQue, the correct answer entity appears in 96% of generated triplets. On HotpotQA, our triplets-only setup achieves 76.0 F1, and on MuSiQue 59.8 F1, matching or surpassing several retrieval-augmented generation baselines that still require textual context. In addition, Wikontic attains state-of-the-art information-retention performance on the MINE-1 benchmark (86%), outperforming prior KG construction methods. Wikontic is also efficient at build time: KG construction uses less than 1,000 output tokens, about 3times fewer than AriGraph and <1/20 of GraphRAG. The proposed pipeline enhances the quality of the generated KG and offers a scalable solution for leveraging structured knowledge in LLMs.