ChatPaper.aiChatPaper

Wikontic: Construcción de Grafos de Conocimiento Alineados con Wikidata y Conscientes de la Ontología mediante Modelos de Lenguaje a Gran Escala

Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models

November 29, 2025
Autores: Alla Chepurova, Aydar Bulatov, Yuri Kuratov, Mikhail Burtsev
cs.AI

Resumen

Los grafos de conocimiento (KGs) proporcionan una base estructurada y verificable para los modelos de lenguaje grande (LLMs), pero los sistemas actuales basados en LLMs comúnmente utilizan los KGs como estructuras auxiliares para la recuperación de texto, dejando su calidad intrínseca poco explorada. En este trabajo, proponemos Wikontic, una pipeline multi-etapa que construye KGs a partir de texto de dominio abierto mediante la extracción de tripletas candidatas con calificadores, la aplicación de restricciones de tipo y relación basadas en Wikidata, y la normalización de entidades para reducir la duplicación. Los KGs resultantes son compactos, consistentes con la ontología y bien conectados; en MuSiQue, la entidad de respuesta correcta aparece en el 96% de las tripletas generadas. En HotpotQA, nuestra configuración que utiliza solo tripletas alcanza un F1 de 76.0, y en MuSiQue un F1 de 59.8, igualando o superando a varias líneas base de generación aumentada por recuperación que aún requieren contexto textual. Además, Wikontic logra un rendimiento de retención de información de vanguardia en el benchmark MINE-1 (86%), superando a métodos previos de construcción de KGs. Wikontic también es eficiente en tiempo de construcción: la construcción del KG utiliza menos de 1,000 tokens de salida, aproximadamente 3 veces menos que AriGraph y <1/20 de GraphRAG. La pipeline propuesta mejora la calidad del KG generado y ofrece una solución escalable para aprovechar el conocimiento estructurado en los LLMs.
English
Knowledge graphs (KGs) provide structured, verifiable grounding for large language models (LLMs), but current LLM-based systems commonly use KGs as auxiliary structures for text retrieval, leaving their intrinsic quality underexplored. In this work, we propose Wikontic, a multi-stage pipeline that constructs KGs from open-domain text by extracting candidate triplets with qualifiers, enforcing Wikidata-based type and relation constraints, and normalizing entities to reduce duplication. The resulting KGs are compact, ontology-consistent, and well-connected; on MuSiQue, the correct answer entity appears in 96% of generated triplets. On HotpotQA, our triplets-only setup achieves 76.0 F1, and on MuSiQue 59.8 F1, matching or surpassing several retrieval-augmented generation baselines that still require textual context. In addition, Wikontic attains state-of-the-art information-retention performance on the MINE-1 benchmark (86%), outperforming prior KG construction methods. Wikontic is also efficient at build time: KG construction uses less than 1,000 output tokens, about 3times fewer than AriGraph and <1/20 of GraphRAG. The proposed pipeline enhances the quality of the generated KG and offers a scalable solution for leveraging structured knowledge in LLMs.
PDF259December 3, 2025