CypherBench: Auf dem Weg zur präzisen Abfrage über vollständige moderne Wissensgraphen im LLM-Zeitalter
CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era
December 24, 2024
Autoren: Yanlin Feng, Simone Papicchio, Sajjadur Rahman
cs.AI
Zusammenfassung
Die Abfrage von Graphdaten ist entscheidend, um große Sprachmodelle (LLM) sowohl mit Wissensdaten aus dem Open Domain als auch mit privaten Unternehmensdaten zu erweitern, und sie ist auch eine Schlüsselkomponente im kürzlich vorgestellten GraphRAG-System (Edge et al., 2024). Trotz jahrzehntelanger Forschung zu Wissensgraphen und Wissensdatenbank-Fragenbeantwortung haben führende LLM-Frameworks (z. B. Langchain und LlamaIndex) nur minimale Unterstützung für die Abfrage von modernen enzyklopädischen Wissensgraphen wie Wikidata. In diesem Artikel analysieren wir die Ursache und schlagen vor, dass moderne RDF-Wissensgraphen (z. B. Wikidata, Freebase) aufgrund übermäßig großer Schemata, die den typischen LLM-Kontextbereich bei weitem überschreiten, der Verwendung von Ressourcenidentifikatoren, sich überschneidender Beziehungstypen und fehlender Normalisierung, weniger effizient für LLMs sind. Als Lösung schlagen wir Property-Graph-Ansichten über dem zugrunde liegenden RDF-Graphen vor, die effizient von LLMs mithilfe von Cypher abgefragt werden können. Wir haben diese Idee auf Wikidata umgesetzt und CypherBench eingeführt, den ersten Benchmark mit 11 groß angelegten, multidomänen Property-Graphen mit 7,8 Millionen Entitäten und über 10.000 Fragen. Um dies zu erreichen, haben wir mehrere Schlüsselherausforderungen bewältigt, darunter die Entwicklung eines RDF-zu-Property-Graph-Konvertierungsmotors, die Erstellung einer systematischen Pipeline für die Generierung von Text-zu-Cypher-Aufgaben und das Design neuer Bewertungsmetriken.
English
Retrieval from graph data is crucial for augmenting large language models
(LLM) with both open-domain knowledge and private enterprise data, and it is
also a key component in the recent GraphRAG system (edge et al., 2024). Despite
decades of research on knowledge graphs and knowledge base question answering,
leading LLM frameworks (e.g. Langchain and LlamaIndex) have only minimal
support for retrieval from modern encyclopedic knowledge graphs like Wikidata.
In this paper, we analyze the root cause and suggest that modern RDF knowledge
graphs (e.g. Wikidata, Freebase) are less efficient for LLMs due to overly
large schemas that far exceed the typical LLM context window, use of resource
identifiers, overlapping relation types and lack of normalization. As a
solution, we propose property graph views on top of the underlying RDF graph
that can be efficiently queried by LLMs using Cypher. We instantiated this idea
on Wikidata and introduced CypherBench, the first benchmark with 11
large-scale, multi-domain property graphs with 7.8 million entities and over
10,000 questions. To achieve this, we tackled several key challenges, including
developing an RDF-to-property graph conversion engine, creating a systematic
pipeline for text-to-Cypher task generation, and designing new evaluation
metrics.Summary
AI-Generated Summary