ChatPaper.aiChatPaper

Wikontic: Erstellung von Wikidata-kompatiblen, ontologiebewussten Wissensgraphen mit großen Sprachmodellen

Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models

November 29, 2025
papers.authors: Alla Chepurova, Aydar Bulatov, Yuri Kuratov, Mikhail Burtsev
cs.AI

papers.abstract

Wissensgraphen (KGs) bieten eine strukturierte, überprüfbare Grundlage für große Sprachmodelle (LLMs), doch aktuelle LLM-basierte Systeme nutzen KGs üblicherweise nur als Hilfsstrukturen für Textretrieval, wodurch deren intrinsische Qualität unzureichend erforscht bleibt. In dieser Arbeit stellen wir Wikontic vor, eine mehrstufige Pipeline, die KGs aus Open-Domain-Texten erstellt, indem Kandidatentripel mit Qualifizierern extrahiert, Wikidata-basierte Typ- und Relationsbeschränkungen erzwungen und Entitäten zur Reduzierung von Duplikaten normalisiert werden. Die resultierenden KGs sind kompakt, ontologiekonsistent und gut vernetzt; bei MuSiQue erscheint die korrekte Antwortentität in 96 % der generierten Tripel. Auf HotpotQA erreicht unser reiner Tripel-Ansatz 76,0 F1 und auf MuSiQue 59,8 F1, womit er mehrere retrieval-augmentierte Generierungs-Baselines übertrifft oder gleichauf liegt, die noch textuellen Kontext benötigen. Zusätzlich erzielt Wikontic state-of-the-art Leistung in Bezug auf Informationserhalt auf dem MINE-1-Benchmark (86 %) und übertrifft damit frühere KG-Konstruktionsmethoden. Wikontic ist auch zur Erstellungszeit effizient: Der KG-Aufbau benötigt weniger als 1.000 Ausgabe-Tokens, etwa dreimal weniger als AriGraph und <1/20 von GraphRAG. Die vorgeschlagene Pipeline verbessert die Qualität des generierten Wissensgraphen und bietet eine skalierbare Lösung zur Nutzung strukturierten Wissens in LLMs.
English
Knowledge graphs (KGs) provide structured, verifiable grounding for large language models (LLMs), but current LLM-based systems commonly use KGs as auxiliary structures for text retrieval, leaving their intrinsic quality underexplored. In this work, we propose Wikontic, a multi-stage pipeline that constructs KGs from open-domain text by extracting candidate triplets with qualifiers, enforcing Wikidata-based type and relation constraints, and normalizing entities to reduce duplication. The resulting KGs are compact, ontology-consistent, and well-connected; on MuSiQue, the correct answer entity appears in 96% of generated triplets. On HotpotQA, our triplets-only setup achieves 76.0 F1, and on MuSiQue 59.8 F1, matching or surpassing several retrieval-augmented generation baselines that still require textual context. In addition, Wikontic attains state-of-the-art information-retention performance on the MINE-1 benchmark (86%), outperforming prior KG construction methods. Wikontic is also efficient at build time: KG construction uses less than 1,000 output tokens, about 3times fewer than AriGraph and <1/20 of GraphRAG. The proposed pipeline enhances the quality of the generated KG and offers a scalable solution for leveraging structured knowledge in LLMs.
PDF259December 3, 2025