CypherBench: Naar Precieze Terugvinding over Volledige Moderne Kennisgrafieken in het LLM-tijdperk
CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era
December 24, 2024
Auteurs: Yanlin Feng, Simone Papicchio, Sajjadur Rahman
cs.AI
Samenvatting
Het ophalen van gegevens uit grafieken is cruciaal voor het verrijken van grote taalmodellen (LLM) met zowel open-domeinkennis als privébedrijfsgegevens, en het is ook een sleutelelement in het recente GraphRAG-systeem (Edge et al., 2024). Ondanks tientallen jaren onderzoek naar kennisgrafieken en vraag-antwoordkennisbanken, hebben toonaangevende LLM-frameworks (bijv. Langchain en LlamaIndex) slechts minimale ondersteuning voor het ophalen van gegevens uit moderne encyclopedische kennisgrafieken zoals Wikidata. In dit artikel analyseren we de oorzaak en suggereren dat moderne RDF-kennisgrafieken (bijv. Wikidata, Freebase) minder efficiënt zijn voor LLM's vanwege overdreven grote schema's die ver buiten het typische LLM-contextvenster vallen, het gebruik van bronidentificatoren, overlappende relatie typen en gebrek aan normalisatie. Als oplossing stellen we eigenschapsgrafweergaven voor bovenop de onderliggende RDF-grafiek die efficiënt kunnen worden bevraagd door LLM's met behulp van Cypher. We hebben dit idee geïmplementeerd op Wikidata en CypherBench geïntroduceerd, de eerste benchmark met 11 grootschalige, multidomeineigenschapsgroepen met 7,8 miljoen entiteiten en meer dan 10.000 vragen. Om dit te bereiken, zijn we verschillende belangrijke uitdagingen aangegaan, waaronder het ontwikkelen van een RDF-naar-eigenschapsgroepconversiemotor, het creëren van een systematische pijplijn voor tekst-naar-Cypher taakgeneratie, en het ontwerpen van nieuwe evaluatiemetingen.
English
Retrieval from graph data is crucial for augmenting large language models
(LLM) with both open-domain knowledge and private enterprise data, and it is
also a key component in the recent GraphRAG system (edge et al., 2024). Despite
decades of research on knowledge graphs and knowledge base question answering,
leading LLM frameworks (e.g. Langchain and LlamaIndex) have only minimal
support for retrieval from modern encyclopedic knowledge graphs like Wikidata.
In this paper, we analyze the root cause and suggest that modern RDF knowledge
graphs (e.g. Wikidata, Freebase) are less efficient for LLMs due to overly
large schemas that far exceed the typical LLM context window, use of resource
identifiers, overlapping relation types and lack of normalization. As a
solution, we propose property graph views on top of the underlying RDF graph
that can be efficiently queried by LLMs using Cypher. We instantiated this idea
on Wikidata and introduced CypherBench, the first benchmark with 11
large-scale, multi-domain property graphs with 7.8 million entities and over
10,000 questions. To achieve this, we tackled several key challenges, including
developing an RDF-to-property graph conversion engine, creating a systematic
pipeline for text-to-Cypher task generation, and designing new evaluation
metrics.