ChatPaper.aiChatPaper

Wikontic: Costruzione di grafi di conoscenza allineati a Wikidata e consapevoli delle ontologie con modelli linguistici di grandi dimensioni

Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models

November 29, 2025
Autori: Alla Chepurova, Aydar Bulatov, Yuri Kuratov, Mikhail Burtsev
cs.AI

Abstract

I grafi della conoscenza (KG) forniscono una base strutturata e verificabile per i grandi modelli linguistici (LLM), ma i sistemi attuali basati su LLM utilizzano comunemente i KG come strutture ausiliarie per il recupero di testo, lasciando la loro qualità intrinseca poco esplorata. In questo lavoro, proponiamo Wikontic, una pipeline multi-stadio che costruisce KG da testo open-domain estraendo triplette candidate con qualificatori, applicando vincoli di tipo e relazione basati su Wikidata, e normalizzando le entità per ridurre la duplicazione. I KG risultanti sono compatti, coerenti con l'ontologia e ben connessi; su MuSiQue, l'entità della risposta corretta appare nel 96% delle triplette generate. Su HotpotQA, la nostra configurazione che utilizza solo triplette raggiunge un F1 del 76.0, e su MuSiQue un F1 del 59.8, eguagliando o superando diverse baseline di generazione aumentata per recupero che richiedono ancora il contesto testuale. Inoltre, Wikontic raggiunge prestazioni all'avanguardia nella ritenzione delle informazioni sul benchmark MINE-1 (86%), superando i metodi precedenti di costruzione di KG. Wikontic è anche efficiente in fase di costruzione: la generazione del KG utilizza meno di 1.000 token di output, circa 3 volte in meno rispetto ad AriGraph e <1/20 di GraphRAG. La pipeline proposta migliora la qualità del KG generato e offre una soluzione scalabile per sfruttare la conoscenza strutturata negli LLM.
English
Knowledge graphs (KGs) provide structured, verifiable grounding for large language models (LLMs), but current LLM-based systems commonly use KGs as auxiliary structures for text retrieval, leaving their intrinsic quality underexplored. In this work, we propose Wikontic, a multi-stage pipeline that constructs KGs from open-domain text by extracting candidate triplets with qualifiers, enforcing Wikidata-based type and relation constraints, and normalizing entities to reduce duplication. The resulting KGs are compact, ontology-consistent, and well-connected; on MuSiQue, the correct answer entity appears in 96% of generated triplets. On HotpotQA, our triplets-only setup achieves 76.0 F1, and on MuSiQue 59.8 F1, matching or surpassing several retrieval-augmented generation baselines that still require textual context. In addition, Wikontic attains state-of-the-art information-retention performance on the MINE-1 benchmark (86%), outperforming prior KG construction methods. Wikontic is also efficient at build time: KG construction uses less than 1,000 output tokens, about 3times fewer than AriGraph and <1/20 of GraphRAG. The proposed pipeline enhances the quality of the generated KG and offers a scalable solution for leveraging structured knowledge in LLMs.
PDF259December 3, 2025