CypherBench : Vers une Récupération Précise sur des Graphes de Connaissances Modernes à Grande Échelle à l'Ère du LLM
CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era
December 24, 2024
Auteurs: Yanlin Feng, Simone Papicchio, Sajjadur Rahman
cs.AI
Résumé
L'extraction de données à partir de graphes est cruciale pour enrichir les grands modèles de langage (LLM) avec des connaissances à la fois en domaine ouvert et en données d'entreprise privées, et c'est également un composant clé du récent système GraphRAG (edge et al., 2024). Malgré des décennies de recherche sur les graphes de connaissances et les réponses aux questions des bases de connaissances, les principaux cadres LLM (par exemple Langchain et LlamaIndex) offrent un soutien minimal à l'extraction des connaissances des graphes de connaissances encyclopédiques modernes comme Wikidata. Dans cet article, nous analysons la cause profonde et suggérons que les graphes de connaissances RDF modernes (par exemple Wikidata, Freebase) sont moins efficaces pour les LLM en raison de schémas excessivement grands qui dépassent largement la fenêtre contextuelle typique des LLM, de l'utilisation d'identifiants de ressources, de types de relations superposés et du manque de normalisation. En tant que solution, nous proposons des vues de graphes de propriétés sur le dessus du graphe RDF sous-jacent qui peuvent être interrogées efficacement par les LLM en utilisant Cypher. Nous avons concrétisé cette idée sur Wikidata et introduit CypherBench, le premier banc d'essai avec 11 graphes de propriétés à grande échelle et multi-domaines comprenant 7,8 millions d'entités et plus de 10 000 questions. Pour y parvenir, nous avons relevé plusieurs défis clés, notamment le développement d'un moteur de conversion RDF en graphe de propriétés, la création d'un pipeline systématique pour la génération de tâches texte-Cypher, et la conception de nouvelles mesures d'évaluation.
English
Retrieval from graph data is crucial for augmenting large language models
(LLM) with both open-domain knowledge and private enterprise data, and it is
also a key component in the recent GraphRAG system (edge et al., 2024). Despite
decades of research on knowledge graphs and knowledge base question answering,
leading LLM frameworks (e.g. Langchain and LlamaIndex) have only minimal
support for retrieval from modern encyclopedic knowledge graphs like Wikidata.
In this paper, we analyze the root cause and suggest that modern RDF knowledge
graphs (e.g. Wikidata, Freebase) are less efficient for LLMs due to overly
large schemas that far exceed the typical LLM context window, use of resource
identifiers, overlapping relation types and lack of normalization. As a
solution, we propose property graph views on top of the underlying RDF graph
that can be efficiently queried by LLMs using Cypher. We instantiated this idea
on Wikidata and introduced CypherBench, the first benchmark with 11
large-scale, multi-domain property graphs with 7.8 million entities and over
10,000 questions. To achieve this, we tackled several key challenges, including
developing an RDF-to-property graph conversion engine, creating a systematic
pipeline for text-to-Cypher task generation, and designing new evaluation
metrics.Summary
AI-Generated Summary