CypherBench: К точному извлечению информации из полномасштабных современных графов знаний в эпоху LLM.
CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era
December 24, 2024
Авторы: Yanlin Feng, Simone Papicchio, Sajjadur Rahman
cs.AI
Аннотация
Извлечение данных из графов критически важно для расширения больших языковых моделей (LLM) как открытыми знаниями, так и данными частных предприятий, и также является ключевым компонентом недавней системы GraphRAG (Edge и др., 2024). Несмотря на десятилетия исследований по знаниевым графам и ответам на вопросы баз знаний, ведущие фреймворки LLM (например, Langchain и LlamaIndex) имеют лишь минимальную поддержку для извлечения данных из современных энциклопедических знаниевых графов, таких как Wikidata. В данной статье мы анализируем коренные причины и предлагаем, что современные знаниевые графы RDF (например, Wikidata, Freebase) менее эффективны для LLM из-за чрезмерно больших схем, значительно превышающих типичное окно контекста LLM, использования идентификаторов ресурсов, перекрывающихся типов отношений и отсутствия нормализации. В качестве решения мы предлагаем представления графов свойств поверх базового графа RDF, которые могут быть эффективно запрошены LLM с использованием языка запросов Cypher. Мы реализовали эту идею на Wikidata и представили CypherBench, первый бенчмарк с 11 крупномасштабными, мультидоменными графами свойств, содержащими 7,8 миллионов сущностей и более 10 000 вопросов. Для достижения этой цели мы решали несколько ключевых задач, включая разработку движка преобразования RDF в граф свойств, создание систематического конвейера для генерации задач текст-к-Cypher и разработку новых метрик оценки.
English
Retrieval from graph data is crucial for augmenting large language models
(LLM) with both open-domain knowledge and private enterprise data, and it is
also a key component in the recent GraphRAG system (edge et al., 2024). Despite
decades of research on knowledge graphs and knowledge base question answering,
leading LLM frameworks (e.g. Langchain and LlamaIndex) have only minimal
support for retrieval from modern encyclopedic knowledge graphs like Wikidata.
In this paper, we analyze the root cause and suggest that modern RDF knowledge
graphs (e.g. Wikidata, Freebase) are less efficient for LLMs due to overly
large schemas that far exceed the typical LLM context window, use of resource
identifiers, overlapping relation types and lack of normalization. As a
solution, we propose property graph views on top of the underlying RDF graph
that can be efficiently queried by LLMs using Cypher. We instantiated this idea
on Wikidata and introduced CypherBench, the first benchmark with 11
large-scale, multi-domain property graphs with 7.8 million entities and over
10,000 questions. To achieve this, we tackled several key challenges, including
developing an RDF-to-property graph conversion engine, creating a systematic
pipeline for text-to-Cypher task generation, and designing new evaluation
metrics.Summary
AI-Generated Summary