Wikontic: Construção de Grafos de Conhecimento Conscientes de Ontologia e Alinhados ao Wikidata com Modelos de Linguagem de Grande Porte

Resumo

Os grafos de conhecimento (KGs) fornecem uma base estruturada e verificável para grandes modelos de linguagem (LLMs), mas os sistemas atuais baseados em LLMs geralmente utilizam KGs como estruturas auxiliares para recuperação de texto, deixando sua qualidade intrínseca subexplorada. Neste trabalho, propomos o Wikontic, um *pipeline* multiestágio que constrói KGs a partir de texto de domínio aberto através da extração de triplas candidatas com qualificadores, aplicação de restrições de tipo e relação baseadas no Wikidata e normalização de entidades para reduzir duplicações. Os KGs resultantes são compactos, consistentes com a ontologia e bem conectados; no MuSiQue, a entidade de resposta correta aparece em 96% das triplas geradas. No HotpotQA, nossa configuração usando apenas triplas atinge 76,0 de F1, e no MuSiQue 59,8 de F1, equiparando ou superando várias baselines de geração aumentada por recuperação que ainda exigem contexto textual. Adicionalmente, o Wikontic atinge desempenho state-of-the-art em retenção de informação no *benchmark* MINE-1 (86%), superando métodos anteriores de construção de KGs. O Wikontic também é eficiente no tempo de construção: a construção do KG utiliza menos de 1.000 *tokens* de saída, aproximadamente 3 vezes menos que o AriGraph e <1/20 do GraphRAG. O *pipeline* proposto melhora a qualidade do KG gerado e oferece uma solução escalável para aproveitar o conhecimento estruturado em LLMs.

English

Knowledge graphs (KGs) provide structured, verifiable grounding for large language models (LLMs), but current LLM-based systems commonly use KGs as auxiliary structures for text retrieval, leaving their intrinsic quality underexplored. In this work, we propose Wikontic, a multi-stage pipeline that constructs KGs from open-domain text by extracting candidate triplets with qualifiers, enforcing Wikidata-based type and relation constraints, and normalizing entities to reduce duplication. The resulting KGs are compact, ontology-consistent, and well-connected; on MuSiQue, the correct answer entity appears in 96% of generated triplets. On HotpotQA, our triplets-only setup achieves 76.0 F1, and on MuSiQue 59.8 F1, matching or surpassing several retrieval-augmented generation baselines that still require textual context. In addition, Wikontic attains state-of-the-art information-retention performance on the MINE-1 benchmark (86%), outperforming prior KG construction methods. Wikontic is also efficient at build time: KG construction uses less than 1,000 output tokens, about 3times fewer than AriGraph and <1/20 of GraphRAG. The proposed pipeline enhances the quality of the generated KG and offers a scalable solution for leveraging structured knowledge in LLMs.

Wikontic: Construção de Grafos de Conhecimento Conscientes de Ontologia e Alinhados ao Wikidata com Modelos de Linguagem de Grande Porte

Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models

Resumo

Support