ChatPaper.aiChatPaper

Wikontic : Construction de graphes de connaissances alignés sur Wikidata et conscients de l'ontologie avec des modèles de langage de grande taille

Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models

November 29, 2025
papers.authors: Alla Chepurova, Aydar Bulatov, Yuri Kuratov, Mikhail Burtsev
cs.AI

papers.abstract

Les graphes de connaissances (KG) fournissent un ancrage structuré et vérifiable aux grands modèles de langage (LLM), mais les systèmes actuels basés sur les LLM utilisent généralement les KG comme structures auxiliaires pour la recherche de texte, laissant leur qualité intrinsèque sous-explorée. Dans ce travail, nous proposons Wikontic, un pipeline multi-étapes qui construit des KG à partir de texte ouvert en extrayant des triplets candidats avec qualificatifs, en appliquant des contraintes de types et de relations basées sur Wikidata, et en normalisant les entités pour réduire la duplication. Les KG résultants sont compacts, cohérents avec une ontologie et bien connectés ; sur MuSiQue, l'entité de réponse correcte apparaît dans 96 % des triplets générés. Sur HotpotQA, notre configuration utilisant uniquement les triplets atteint un F1 de 76,0, et sur MuSiQue un F1 de 59,8, égalant ou surpassant plusieurs modèles de référence à génération augmentée par retrieval qui nécessitent encore un contexte textuel. De plus, Wikontic obtient une performance de rétention d'information de pointe sur le benchmark MINE-1 (86 %), surpassant les méthodes précédentes de construction de KG. Wikontic est également efficace en temps de construction : la création du KG utilise moins de 1 000 tokens en sortie, soit environ 3 fois moins qu'Artigraph et <1/20 de GraphRAG. Le pipeline proposé améliore la qualité du KG généré et offre une solution évolutive pour exploiter les connaissances structurées dans les LLM.
English
Knowledge graphs (KGs) provide structured, verifiable grounding for large language models (LLMs), but current LLM-based systems commonly use KGs as auxiliary structures for text retrieval, leaving their intrinsic quality underexplored. In this work, we propose Wikontic, a multi-stage pipeline that constructs KGs from open-domain text by extracting candidate triplets with qualifiers, enforcing Wikidata-based type and relation constraints, and normalizing entities to reduce duplication. The resulting KGs are compact, ontology-consistent, and well-connected; on MuSiQue, the correct answer entity appears in 96% of generated triplets. On HotpotQA, our triplets-only setup achieves 76.0 F1, and on MuSiQue 59.8 F1, matching or surpassing several retrieval-augmented generation baselines that still require textual context. In addition, Wikontic attains state-of-the-art information-retention performance on the MINE-1 benchmark (86%), outperforming prior KG construction methods. Wikontic is also efficient at build time: KG construction uses less than 1,000 output tokens, about 3times fewer than AriGraph and <1/20 of GraphRAG. The proposed pipeline enhances the quality of the generated KG and offers a scalable solution for leveraging structured knowledge in LLMs.
PDF259December 3, 2025