NodeRAG: Strukturierung von graphenbasiertem RAG mit heterogenen Knoten
NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes
April 15, 2025
Autoren: Tianyang Xu, Haojie Zheng, Chengze Li, Haoxiang Chen, Yixin Liu, Ruoxi Chen, Lichao Sun
cs.AI
Zusammenfassung
Retrieval-augmented Generation (RAG) ermöglicht es großen Sprachmodellen, auf externe und private Korpora zuzugreifen, wodurch faktenkonsistente Antworten in spezifischen Domänen ermöglicht werden. Durch die Nutzung der inhärenten Struktur des Korpus bereichern graphenbasierte RAG-Methoden diesen Prozess weiter, indem sie einen Wissensgraphen-Index erstellen und die strukturelle Natur von Graphen nutzen. Allerdings priorisieren aktuelle graphenbasierte RAG-Ansätze selten das Design von Graphenstrukturen. Unzureichend gestaltete Graphen behindern nicht nur die nahtlose Integration verschiedener Graphalgorithmen, sondern führen auch zu Inkonsistenzen im Workflow und einer verschlechterten Leistung. Um das Potenzial von Graphen für RAG weiter auszuschöpfen, schlagen wir NodeRAG vor, ein graphenzentriertes Framework, das heterogene Graphenstrukturen einführt, die eine nahtlose und ganzheitliche Integration graphenbasierter Methoden in den RAG-Workflow ermöglichen. Durch die enge Ausrichtung an den Fähigkeiten von LLMs gewährleistet dieses Framework einen vollständig kohäsiven und effizienten End-to-End-Prozess. Durch umfangreiche Experimente zeigen wir, dass NodeRAG Leistungsvorteile gegenüber früheren Methoden wie GraphRAG und LightRAG aufweist, nicht nur in Bezug auf Indexierungszeit, Abfragezeit und Speichereffizienz, sondern auch bei der Bereitstellung überlegener Frage-Antwort-Leistung auf Multi-Hop-Benchmarks und offenen Head-to-Head-Evaluierungen mit minimalen Retrieval-Tokens. Unser GitHub-Repository ist unter https://github.com/Terry-Xu-666/NodeRAG zu finden.
English
Retrieval-augmented generation (RAG) empowers large language models to access
external and private corpus, enabling factually consistent responses in
specific domains. By exploiting the inherent structure of the corpus,
graph-based RAG methods further enrich this process by building a knowledge
graph index and leveraging the structural nature of graphs. However, current
graph-based RAG approaches seldom prioritize the design of graph structures.
Inadequately designed graph not only impede the seamless integration of diverse
graph algorithms but also result in workflow inconsistencies and degraded
performance. To further unleash the potential of graph for RAG, we propose
NodeRAG, a graph-centric framework introducing heterogeneous graph structures
that enable the seamless and holistic integration of graph-based methodologies
into the RAG workflow. By aligning closely with the capabilities of LLMs, this
framework ensures a fully cohesive and efficient end-to-end process. Through
extensive experiments, we demonstrate that NodeRAG exhibits performance
advantages over previous methods, including GraphRAG and LightRAG, not only in
indexing time, query time, and storage efficiency but also in delivering
superior question-answering performance on multi-hop benchmarks and open-ended
head-to-head evaluations with minimal retrieval tokens. Our GitHub repository
could be seen at https://github.com/Terry-Xu-666/NodeRAG.