ChatPaper.aiChatPaper

NodeRAG: Strutturazione di RAG basato su grafi con nodi eterogenei

NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes

April 15, 2025
Autori: Tianyang Xu, Haojie Zheng, Chengze Li, Haoxiang Chen, Yixin Liu, Ruoxi Chen, Lichao Sun
cs.AI

Abstract

La generazione potenziata dal recupero (RAG) consente ai grandi modelli linguistici di accedere a corpus esterni e privati, permettendo risposte fattualmente coerenti in domini specifici. Sfruttando la struttura intrinseca del corpus, i metodi RAG basati su grafi arricchiscono ulteriormente questo processo costruendo un indice di grafi di conoscenza e sfruttando la natura strutturale dei grafi. Tuttavia, gli attuali approcci RAG basati su grafi raramente danno priorità alla progettazione delle strutture dei grafi. Grafi progettati in modo inadeguato non solo ostacolano l'integrazione senza soluzione di continuità di diversi algoritmi di grafi, ma causano anche incoerenze nel flusso di lavoro e un degrado delle prestazioni. Per sfruttare ulteriormente il potenziale dei grafi per RAG, proponiamo NodeRAG, un framework centrato sui grafi che introduce strutture di grafi eterogenee che consentono l'integrazione fluida e olistica delle metodologie basate su grafi nel flusso di lavoro RAG. Allineandosi strettamente alle capacità dei LLM, questo framework garantisce un processo end-to-end completamente coeso ed efficiente. Attraverso esperimenti estensivi, dimostriamo che NodeRAG presenta vantaggi prestazionali rispetto ai metodi precedenti, inclusi GraphRAG e LightRAG, non solo in termini di tempo di indicizzazione, tempo di query ed efficienza di archiviazione, ma anche nel fornire prestazioni superiori nel question-answering su benchmark multi-hop e valutazioni aperte testa a testa con un numero minimo di token di recupero. Il nostro repository GitHub è disponibile all'indirizzo https://github.com/Terry-Xu-666/NodeRAG.
English
Retrieval-augmented generation (RAG) empowers large language models to access external and private corpus, enabling factually consistent responses in specific domains. By exploiting the inherent structure of the corpus, graph-based RAG methods further enrich this process by building a knowledge graph index and leveraging the structural nature of graphs. However, current graph-based RAG approaches seldom prioritize the design of graph structures. Inadequately designed graph not only impede the seamless integration of diverse graph algorithms but also result in workflow inconsistencies and degraded performance. To further unleash the potential of graph for RAG, we propose NodeRAG, a graph-centric framework introducing heterogeneous graph structures that enable the seamless and holistic integration of graph-based methodologies into the RAG workflow. By aligning closely with the capabilities of LLMs, this framework ensures a fully cohesive and efficient end-to-end process. Through extensive experiments, we demonstrate that NodeRAG exhibits performance advantages over previous methods, including GraphRAG and LightRAG, not only in indexing time, query time, and storage efficiency but also in delivering superior question-answering performance on multi-hop benchmarks and open-ended head-to-head evaluations with minimal retrieval tokens. Our GitHub repository could be seen at https://github.com/Terry-Xu-666/NodeRAG.

Summary

AI-Generated Summary

PDF412April 21, 2025