ChatPaper.aiChatPaper

Wikontic: Het construeren van Wikidata-uitgelijnde, ontologiebewuste kennisgrafen met grote taalmodellen

Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models

November 29, 2025
Auteurs: Alla Chepurova, Aydar Bulatov, Yuri Kuratov, Mikhail Burtsev
cs.AI

Samenvatting

Kennisgrafen (KG's) bieden gestructureerde, verifieerbare onderbouwing voor grote taalmmodellen (LLM's), maar huidige op LLM's gebaseerde systemen gebruiken KG's doorgaans als hulpstructuren voor tekstretrieval, waardoor hun intrinsieke kwaliteit onderbelicht blijft. In dit werk stellen we Wikontic voor, een pijplijn met meerdere fasen die KG's construeert uit open-domein tekst door kandidaat-triples met kwalificatoren te extraheren, door op Wikidata gebaseerde type- en relatiebeperkingen af te dwingen, en door entiteiten te normaliseren om duplicatie te verminderen. De resulterende KG's zijn compact, consistent met de ontologie en goed verbonden; op MuSiQue verschijnt de juiste antwoordentiteit in 96% van de gegenereerde triples. Op HotpotQA behaalt onze uitsluitend-op-triples-opstelling 76,0 F1, en op MuSiQue 59,8 F1, waarmee verschillende retrieval-augmented generation-basislijnen worden geëvenaard of overtroffen die nog steeds tekstuele context vereisen. Bovendien behaalt Wikontic state-of-the-art prestaties qua informatiebehoud op de MINE-1 benchmark (86%), waarmee eerdere KG-constructiemethoden worden overtroffen. Wikontic is ook efficiënt qua bouwtijd: KG-constructie gebruikt minder dan 1.000 output-tokens, ongeveer 3 keer minder dan AriGraph en <1/20 van GraphRAG. De voorgestelde pijplijn verbetert de kwaliteit van de gegenereerde KG en biedt een schaalbare oplossing voor het benutten van gestructureerde kennis in LLM's.
English
Knowledge graphs (KGs) provide structured, verifiable grounding for large language models (LLMs), but current LLM-based systems commonly use KGs as auxiliary structures for text retrieval, leaving their intrinsic quality underexplored. In this work, we propose Wikontic, a multi-stage pipeline that constructs KGs from open-domain text by extracting candidate triplets with qualifiers, enforcing Wikidata-based type and relation constraints, and normalizing entities to reduce duplication. The resulting KGs are compact, ontology-consistent, and well-connected; on MuSiQue, the correct answer entity appears in 96% of generated triplets. On HotpotQA, our triplets-only setup achieves 76.0 F1, and on MuSiQue 59.8 F1, matching or surpassing several retrieval-augmented generation baselines that still require textual context. In addition, Wikontic attains state-of-the-art information-retention performance on the MINE-1 benchmark (86%), outperforming prior KG construction methods. Wikontic is also efficient at build time: KG construction uses less than 1,000 output tokens, about 3times fewer than AriGraph and <1/20 of GraphRAG. The proposed pipeline enhances the quality of the generated KG and offers a scalable solution for leveraging structured knowledge in LLMs.
PDF259December 3, 2025