CypherBench: Hacia la Recuperación Precisa en Grafos de Conocimiento Modernos a Gran Escala en la Era de LLM
CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era
December 24, 2024
Autores: Yanlin Feng, Simone Papicchio, Sajjadur Rahman
cs.AI
Resumen
La recuperación de datos de grafos es crucial para ampliar los modelos de lenguaje grandes (LLM) con conocimiento de dominio abierto y datos empresariales privados, y también es un componente clave en el sistema GraphRAG reciente (Edge et al., 2024). A pesar de décadas de investigación en grafos de conocimiento y respuesta a preguntas de bases de conocimiento, los principales marcos de LLM (por ejemplo, Langchain y LlamaIndex) solo tienen un soporte mínimo para la recuperación de grafos de conocimiento enciclopédico modernos como Wikidata. En este documento, analizamos la causa raíz y sugerimos que los grafos de conocimiento RDF modernos (por ejemplo, Wikidata, Freebase) son menos eficientes para los LLM debido a esquemas excesivamente grandes que superan ampliamente la ventana de contexto típica de los LLM, uso de identificadores de recursos, tipos de relaciones superpuestos y falta de normalización. Como solución, proponemos vistas de grafos de propiedades sobre el grafo RDF subyacente que pueden ser consultadas eficientemente por los LLM utilizando Cypher. Implementamos esta idea en Wikidata e introdujimos CypherBench, el primer banco de pruebas con 11 grafos de propiedades a gran escala y multidominio con 7.8 millones de entidades y más de 10,000 preguntas. Para lograr esto, abordamos varios desafíos clave, incluida la creación de un motor de conversión de RDF a grafo de propiedades, la creación de un pipeline sistemático para la generación de tareas de texto a Cypher y el diseño de nuevas métricas de evaluación.
English
Retrieval from graph data is crucial for augmenting large language models
(LLM) with both open-domain knowledge and private enterprise data, and it is
also a key component in the recent GraphRAG system (edge et al., 2024). Despite
decades of research on knowledge graphs and knowledge base question answering,
leading LLM frameworks (e.g. Langchain and LlamaIndex) have only minimal
support for retrieval from modern encyclopedic knowledge graphs like Wikidata.
In this paper, we analyze the root cause and suggest that modern RDF knowledge
graphs (e.g. Wikidata, Freebase) are less efficient for LLMs due to overly
large schemas that far exceed the typical LLM context window, use of resource
identifiers, overlapping relation types and lack of normalization. As a
solution, we propose property graph views on top of the underlying RDF graph
that can be efficiently queried by LLMs using Cypher. We instantiated this idea
on Wikidata and introduced CypherBench, the first benchmark with 11
large-scale, multi-domain property graphs with 7.8 million entities and over
10,000 questions. To achieve this, we tackled several key challenges, including
developing an RDF-to-property graph conversion engine, creating a systematic
pipeline for text-to-Cypher task generation, and designing new evaluation
metrics.Summary
AI-Generated Summary