NodeRAG: Strukturierung von graphenbasiertem RAG mit heterogenen Knoten

Zusammenfassung

Retrieval-augmented Generation (RAG) ermöglicht es großen Sprachmodellen, auf externe und private Korpora zuzugreifen, wodurch faktenkonsistente Antworten in spezifischen Domänen ermöglicht werden. Durch die Nutzung der inhärenten Struktur des Korpus bereichern graphenbasierte RAG-Methoden diesen Prozess weiter, indem sie einen Wissensgraphen-Index erstellen und die strukturelle Natur von Graphen nutzen. Allerdings priorisieren aktuelle graphenbasierte RAG-Ansätze selten das Design von Graphenstrukturen. Unzureichend gestaltete Graphen behindern nicht nur die nahtlose Integration verschiedener Graphalgorithmen, sondern führen auch zu Inkonsistenzen im Workflow und einer verschlechterten Leistung. Um das Potenzial von Graphen für RAG weiter auszuschöpfen, schlagen wir NodeRAG vor, ein graphenzentriertes Framework, das heterogene Graphenstrukturen einführt, die eine nahtlose und ganzheitliche Integration graphenbasierter Methoden in den RAG-Workflow ermöglichen. Durch die enge Ausrichtung an den Fähigkeiten von LLMs gewährleistet dieses Framework einen vollständig kohäsiven und effizienten End-to-End-Prozess. Durch umfangreiche Experimente zeigen wir, dass NodeRAG Leistungsvorteile gegenüber früheren Methoden wie GraphRAG und LightRAG aufweist, nicht nur in Bezug auf Indexierungszeit, Abfragezeit und Speichereffizienz, sondern auch bei der Bereitstellung überlegener Frage-Antwort-Leistung auf Multi-Hop-Benchmarks und offenen Head-to-Head-Evaluierungen mit minimalen Retrieval-Tokens. Unser GitHub-Repository ist unter https://github.com/Terry-Xu-666/NodeRAG zu finden.

English

Retrieval-augmented generation (RAG) empowers large language models to access external and private corpus, enabling factually consistent responses in specific domains. By exploiting the inherent structure of the corpus, graph-based RAG methods further enrich this process by building a knowledge graph index and leveraging the structural nature of graphs. However, current graph-based RAG approaches seldom prioritize the design of graph structures. Inadequately designed graph not only impede the seamless integration of diverse graph algorithms but also result in workflow inconsistencies and degraded performance. To further unleash the potential of graph for RAG, we propose NodeRAG, a graph-centric framework introducing heterogeneous graph structures that enable the seamless and holistic integration of graph-based methodologies into the RAG workflow. By aligning closely with the capabilities of LLMs, this framework ensures a fully cohesive and efficient end-to-end process. Through extensive experiments, we demonstrate that NodeRAG exhibits performance advantages over previous methods, including GraphRAG and LightRAG, not only in indexing time, query time, and storage efficiency but also in delivering superior question-answering performance on multi-hop benchmarks and open-ended head-to-head evaluations with minimal retrieval tokens. Our GitHub repository could be seen at https://github.com/Terry-Xu-666/NodeRAG.