NodeRAG: Het structureren van grafiekgebaseerde RAG met heterogene knooppunten
NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes
April 15, 2025
Auteurs: Tianyang Xu, Haojie Zheng, Chengze Li, Haoxiang Chen, Yixin Liu, Ruoxi Chen, Lichao Sun
cs.AI
Samenvatting
Retrieval-augmented generation (RAG) stelt grote taalmodelen in staat om toegang te krijgen tot externe en privécorpora, waardoor feitelijk consistente antwoorden in specifieke domeinen mogelijk worden. Door gebruik te maken van de inherente structuur van het corpus, verrijken op grafieken gebaseerde RAG-methoden dit proces verder door een kennisgraafindex op te bouwen en de structurele aard van grafieken te benutten. Huidige op grafieken gebaseerde RAG-benaderingen besteden echter zelden prioriteit aan het ontwerp van grafiekstructuren. Slecht ontworpen grafieken belemmeren niet alleen de naadloze integratie van diverse grafiekalgoritmen, maar resulteren ook in inconsistenties in de workflow en verminderde prestaties. Om het potentieel van grafieken voor RAG verder te benutten, stellen we NodeRAG voor, een grafiekgericht framework dat heterogene grafiekstructuren introduceert, waardoor op grafieken gebaseerde methodologieën naadloos en holistisch kunnen worden geïntegreerd in de RAG-workflow. Door nauw aan te sluiten bij de mogelijkheden van LLM's, zorgt dit framework voor een volledig samenhangend en efficiënt end-to-end proces. Door middel van uitgebreide experimenten tonen we aan dat NodeRAG prestatievoordelen vertoont ten opzichte van eerdere methoden, waaronder GraphRAG en LightRAG, niet alleen in indextijd, querytijd en opslagefficiëntie, maar ook in het leveren van superieure vraag-antwoordprestaties op multi-hop benchmarks en open-ended head-to-head evaluaties met een minimaal aantal retrieval tokens. Onze GitHub-repository is te vinden op https://github.com/Terry-Xu-666/NodeRAG.
English
Retrieval-augmented generation (RAG) empowers large language models to access
external and private corpus, enabling factually consistent responses in
specific domains. By exploiting the inherent structure of the corpus,
graph-based RAG methods further enrich this process by building a knowledge
graph index and leveraging the structural nature of graphs. However, current
graph-based RAG approaches seldom prioritize the design of graph structures.
Inadequately designed graph not only impede the seamless integration of diverse
graph algorithms but also result in workflow inconsistencies and degraded
performance. To further unleash the potential of graph for RAG, we propose
NodeRAG, a graph-centric framework introducing heterogeneous graph structures
that enable the seamless and holistic integration of graph-based methodologies
into the RAG workflow. By aligning closely with the capabilities of LLMs, this
framework ensures a fully cohesive and efficient end-to-end process. Through
extensive experiments, we demonstrate that NodeRAG exhibits performance
advantages over previous methods, including GraphRAG and LightRAG, not only in
indexing time, query time, and storage efficiency but also in delivering
superior question-answering performance on multi-hop benchmarks and open-ended
head-to-head evaluations with minimal retrieval tokens. Our GitHub repository
could be seen at https://github.com/Terry-Xu-666/NodeRAG.Summary
AI-Generated Summary