NodeRAG: Strutturazione di RAG basato su grafi con nodi eterogenei
NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes
April 15, 2025
Autori: Tianyang Xu, Haojie Zheng, Chengze Li, Haoxiang Chen, Yixin Liu, Ruoxi Chen, Lichao Sun
cs.AI
Abstract
La generazione potenziata dal recupero (RAG) consente ai grandi modelli linguistici di accedere a corpus esterni e privati, permettendo risposte fattualmente coerenti in domini specifici. Sfruttando la struttura intrinseca del corpus, i metodi RAG basati su grafi arricchiscono ulteriormente questo processo costruendo un indice di grafi di conoscenza e sfruttando la natura strutturale dei grafi. Tuttavia, gli attuali approcci RAG basati su grafi raramente danno priorità alla progettazione delle strutture dei grafi. Grafi progettati in modo inadeguato non solo ostacolano l'integrazione senza soluzione di continuità di diversi algoritmi di grafi, ma causano anche incoerenze nel flusso di lavoro e un degrado delle prestazioni. Per sfruttare ulteriormente il potenziale dei grafi per RAG, proponiamo NodeRAG, un framework centrato sui grafi che introduce strutture di grafi eterogenee che consentono l'integrazione fluida e olistica delle metodologie basate su grafi nel flusso di lavoro RAG. Allineandosi strettamente alle capacità dei LLM, questo framework garantisce un processo end-to-end completamente coeso ed efficiente. Attraverso esperimenti estensivi, dimostriamo che NodeRAG presenta vantaggi prestazionali rispetto ai metodi precedenti, inclusi GraphRAG e LightRAG, non solo in termini di tempo di indicizzazione, tempo di query ed efficienza di archiviazione, ma anche nel fornire prestazioni superiori nel question-answering su benchmark multi-hop e valutazioni aperte testa a testa con un numero minimo di token di recupero. Il nostro repository GitHub è disponibile all'indirizzo https://github.com/Terry-Xu-666/NodeRAG.
English
Retrieval-augmented generation (RAG) empowers large language models to access
external and private corpus, enabling factually consistent responses in
specific domains. By exploiting the inherent structure of the corpus,
graph-based RAG methods further enrich this process by building a knowledge
graph index and leveraging the structural nature of graphs. However, current
graph-based RAG approaches seldom prioritize the design of graph structures.
Inadequately designed graph not only impede the seamless integration of diverse
graph algorithms but also result in workflow inconsistencies and degraded
performance. To further unleash the potential of graph for RAG, we propose
NodeRAG, a graph-centric framework introducing heterogeneous graph structures
that enable the seamless and holistic integration of graph-based methodologies
into the RAG workflow. By aligning closely with the capabilities of LLMs, this
framework ensures a fully cohesive and efficient end-to-end process. Through
extensive experiments, we demonstrate that NodeRAG exhibits performance
advantages over previous methods, including GraphRAG and LightRAG, not only in
indexing time, query time, and storage efficiency but also in delivering
superior question-answering performance on multi-hop benchmarks and open-ended
head-to-head evaluations with minimal retrieval tokens. Our GitHub repository
could be seen at https://github.com/Terry-Xu-666/NodeRAG.Summary
AI-Generated Summary