NodeRAG : Structuration de RAG basé sur des graphes avec des nœuds hétérogènes

papers.abstract

La génération assistée par la récupération (RAG) permet aux grands modèles de langage d'accéder à des corpus externes et privés, favorisant ainsi des réponses factuellement cohérentes dans des domaines spécifiques. En exploitant la structure inhérente du corpus, les méthodes RAG basées sur les graphes enrichissent davantage ce processus en construisant un index de graphe de connaissances et en tirant parti de la nature structurelle des graphes. Cependant, les approches RAG basées sur les graphes actuelles accordent rarement la priorité à la conception des structures de graphes. Une conception inadéquate des graphes non seulement entrave l'intégration fluide de divers algorithmes de graphes, mais entraîne également des incohérences dans le flux de travail et une dégradation des performances. Pour libérer pleinement le potentiel des graphes dans le cadre de la RAG, nous proposons NodeRAG, un framework centré sur les graphes introduisant des structures de graphes hétérogènes qui permettent une intégration fluide et holistique des méthodologies basées sur les graphes dans le flux de travail RAG. En s'alignant étroitement sur les capacités des LLM, ce framework garantit un processus end-to-end pleinement cohérent et efficace. À travers des expériences approfondies, nous démontrons que NodeRAG présente des avantages de performance par rapport aux méthodes précédentes, notamment GraphRAG et LightRAG, non seulement en termes de temps d'indexation, de temps de requête et d'efficacité de stockage, mais aussi en offrant une performance supérieure dans les benchmarks de questions-réponses multi-sauts et les évaluations ouvertes en tête-à-tête avec un nombre minimal de tokens de récupération. Notre dépôt GitHub est accessible à l'adresse suivante : https://github.com/Terry-Xu-666/NodeRAG.

English

Retrieval-augmented generation (RAG) empowers large language models to access external and private corpus, enabling factually consistent responses in specific domains. By exploiting the inherent structure of the corpus, graph-based RAG methods further enrich this process by building a knowledge graph index and leveraging the structural nature of graphs. However, current graph-based RAG approaches seldom prioritize the design of graph structures. Inadequately designed graph not only impede the seamless integration of diverse graph algorithms but also result in workflow inconsistencies and degraded performance. To further unleash the potential of graph for RAG, we propose NodeRAG, a graph-centric framework introducing heterogeneous graph structures that enable the seamless and holistic integration of graph-based methodologies into the RAG workflow. By aligning closely with the capabilities of LLMs, this framework ensures a fully cohesive and efficient end-to-end process. Through extensive experiments, we demonstrate that NodeRAG exhibits performance advantages over previous methods, including GraphRAG and LightRAG, not only in indexing time, query time, and storage efficiency but also in delivering superior question-answering performance on multi-hop benchmarks and open-ended head-to-head evaluations with minimal retrieval tokens. Our GitHub repository could be seen at https://github.com/Terry-Xu-666/NodeRAG.

NodeRAG : Structuration de RAG basé sur des graphes avec des nœuds hétérogènes

NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes

papers.abstract

Support