Wikontic: 大規模言語モデルを用いた Wikidata に整合したオントロジー認識知識グラフの構築
Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models
November 29, 2025
著者: Alla Chepurova, Aydar Bulatov, Yuri Kuratov, Mikhail Burtsev
cs.AI
要旨
知識グラフ(KG)は大規模言語モデル(LLM)に対して構造化された検証可能な基盤を提供するが、現行のLLMベースのシステムでは、KGをテキスト検索の補助構造として利用することが一般的であり、その本質的な品質は十分に探究されていない。本研究では、Wikonticを提案する。これは、修飾子付きの候補トリプルを抽出し、Wikidataベースの型と関係制約を適用し、重複を削減するためにエンティティを正規化することで、オープンドメインテキストからKGを構築する多段階パイプラインである。生成されるKGはコンパクトでオントロジー整合性が高く、接続性が良好である。MuSiQueでは、正解エンティティが生成トリプルの96%に出現した。HotpotQAでは、トリプルのみを用いた設定で76.0 F1を、MuSiQueでは59.8 F1を達成し、依然として文脈テキストを必要とする複数の検索拡張生成ベースラインを凌駕または匹敵する性能を示した。さらに、WikonticはMINE-1ベンチマークにおいて86%という最先端の情報保持性能を達成し、従来のKG構築手法を上回った。Wikonticは構築時にも効率的であり、KG構築に要する出力トークン数は1,000未満で、AriGraphの約3分の1、GraphRAGの20分の1未満である。提案パイプラインは、生成KGの品質を向上させ、LLMで構造化知識を活用するためのスケーラブルなソリューションを提供する。
English
Knowledge graphs (KGs) provide structured, verifiable grounding for large language models (LLMs), but current LLM-based systems commonly use KGs as auxiliary structures for text retrieval, leaving their intrinsic quality underexplored. In this work, we propose Wikontic, a multi-stage pipeline that constructs KGs from open-domain text by extracting candidate triplets with qualifiers, enforcing Wikidata-based type and relation constraints, and normalizing entities to reduce duplication. The resulting KGs are compact, ontology-consistent, and well-connected; on MuSiQue, the correct answer entity appears in 96% of generated triplets. On HotpotQA, our triplets-only setup achieves 76.0 F1, and on MuSiQue 59.8 F1, matching or surpassing several retrieval-augmented generation baselines that still require textual context. In addition, Wikontic attains state-of-the-art information-retention performance on the MINE-1 benchmark (86%), outperforming prior KG construction methods. Wikontic is also efficient at build time: KG construction uses less than 1,000 output tokens, about 3times fewer than AriGraph and <1/20 of GraphRAG. The proposed pipeline enhances the quality of the generated KG and offers a scalable solution for leveraging structured knowledge in LLMs.