Виконтик: Построение согласованных с Викиданными онтологически-ориентированных графов знаний с помощью больших языковых моделей
Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models
November 29, 2025
Авторы: Alla Chepurova, Aydar Bulatov, Yuri Kuratov, Mikhail Burtsev
cs.AI
Аннотация
Графы знаний (ГЗ) обеспечивают структурированное, проверяемое основание для больших языковых моделей (БЯМ), однако современные системы на основе БЯМ обычно используют ГЗ как вспомогательные структуры для текстового поиска, оставляя их внутреннее качество недостаточно изученным. В данной работе мы предлагаем Wikontic — многоэтапный конвейер, который строит ГЗ из текстов открытой области путем извлечения кандидатных триплетов с квалификаторами, применения ограничений на типы и отношения на основе Wikidata и нормализации сущностей для снижения дублирования. Получаемые ГЗ компактны, соответствуют онтологии и хорошо связаны; на MuSiQue искомая сущность-ответ присутствует в 96% сгенерированных триплетов. На HotpotQA наша установка, использующая только триплеты, достигает показателя F1 76.0, а на MuSiQue — 59.8 F1, что соответствует или превосходит несколько базовых методов retrieval-augmented generation, по-прежнему требующих текстового контекста. Кроме того, Wikontic демонстрирует наилучшую производительность по сохранению информации на бенчмарке MINE-1 (86%), превосходя предыдущие методы построения ГЗ. Wikontic также эффективен на этапе построения: создание ГЗ использует менее 1000 выходных токенов, что примерно в 3 раза меньше, чем у AriGraph, и <1/20 от GraphRAG. Предложенный конвейер повышает качество генерируемого ГЗ и предлагает масштабируемое решение для использования структурированных знаний в БЯМ.
English
Knowledge graphs (KGs) provide structured, verifiable grounding for large language models (LLMs), but current LLM-based systems commonly use KGs as auxiliary structures for text retrieval, leaving their intrinsic quality underexplored. In this work, we propose Wikontic, a multi-stage pipeline that constructs KGs from open-domain text by extracting candidate triplets with qualifiers, enforcing Wikidata-based type and relation constraints, and normalizing entities to reduce duplication. The resulting KGs are compact, ontology-consistent, and well-connected; on MuSiQue, the correct answer entity appears in 96% of generated triplets. On HotpotQA, our triplets-only setup achieves 76.0 F1, and on MuSiQue 59.8 F1, matching or surpassing several retrieval-augmented generation baselines that still require textual context. In addition, Wikontic attains state-of-the-art information-retention performance on the MINE-1 benchmark (86%), outperforming prior KG construction methods. Wikontic is also efficient at build time: KG construction uses less than 1,000 output tokens, about 3times fewer than AriGraph and <1/20 of GraphRAG. The proposed pipeline enhances the quality of the generated KG and offers a scalable solution for leveraging structured knowledge in LLMs.