NodeRAG: Estructuración de RAG basado en grafos con nodos heterogéneos
NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes
April 15, 2025
Autores: Tianyang Xu, Haojie Zheng, Chengze Li, Haoxiang Chen, Yixin Liu, Ruoxi Chen, Lichao Sun
cs.AI
Resumen
La generación aumentada por recuperación (RAG, por sus siglas en inglés) capacita a los modelos de lenguaje de gran escala para acceder a corpus externos y privados, permitiendo respuestas factualmente consistentes en dominios específicos. Al explotar la estructura inherente del corpus, los métodos basados en grafos de RAG enriquecen aún más este proceso mediante la construcción de un índice de grafo de conocimiento y aprovechando la naturaleza estructural de los grafos. Sin embargo, los enfoques actuales de RAG basados en grafos rara vez priorizan el diseño de estructuras de grafos. Un grafo mal diseñado no solo dificulta la integración fluida de diversos algoritmos de grafos, sino que también resulta en inconsistencias en el flujo de trabajo y un rendimiento degradado. Para liberar aún más el potencial de los grafos en RAG, proponemos NodeRAG, un marco centrado en grafos que introduce estructuras de grafos heterogéneas que permiten la integración fluida y holística de metodologías basadas en grafos en el flujo de trabajo de RAG. Al alinearse estrechamente con las capacidades de los LLMs, este marco asegura un proceso completo y eficiente de extremo a extremo. A través de extensos experimentos, demostramos que NodeRAG exhibe ventajas de rendimiento sobre métodos anteriores, incluyendo GraphRAG y LightRAG, no solo en tiempo de indexación, tiempo de consulta y eficiencia de almacenamiento, sino también en la entrega de un rendimiento superior en tareas de respuesta a preguntas en benchmarks de múltiples saltos y evaluaciones abiertas cara a cara con un mínimo de tokens de recuperación. Nuestro repositorio de GitHub puede consultarse en https://github.com/Terry-Xu-666/NodeRAG.
English
Retrieval-augmented generation (RAG) empowers large language models to access
external and private corpus, enabling factually consistent responses in
specific domains. By exploiting the inherent structure of the corpus,
graph-based RAG methods further enrich this process by building a knowledge
graph index and leveraging the structural nature of graphs. However, current
graph-based RAG approaches seldom prioritize the design of graph structures.
Inadequately designed graph not only impede the seamless integration of diverse
graph algorithms but also result in workflow inconsistencies and degraded
performance. To further unleash the potential of graph for RAG, we propose
NodeRAG, a graph-centric framework introducing heterogeneous graph structures
that enable the seamless and holistic integration of graph-based methodologies
into the RAG workflow. By aligning closely with the capabilities of LLMs, this
framework ensures a fully cohesive and efficient end-to-end process. Through
extensive experiments, we demonstrate that NodeRAG exhibits performance
advantages over previous methods, including GraphRAG and LightRAG, not only in
indexing time, query time, and storage efficiency but also in delivering
superior question-answering performance on multi-hop benchmarks and open-ended
head-to-head evaluations with minimal retrieval tokens. Our GitHub repository
could be seen at https://github.com/Terry-Xu-666/NodeRAG.Summary
AI-Generated Summary