NodeRAG:異種ノードを用いたグラフベースRAGの構造化
NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes
April 15, 2025
著者: Tianyang Xu, Haojie Zheng, Chengze Li, Haoxiang Chen, Yixin Liu, Ruoxi Chen, Lichao Sun
cs.AI
要旨
検索拡張生成(RAG)は、大規模言語モデルが外部およびプライベートなコーパスにアクセスすることを可能にし、特定のドメインにおいて事実に基づいた一貫性のある応答を実現します。グラフベースのRAG手法は、コーパスの内在的な構造を活用し、知識グラフインデックスを構築し、グラフの構造的特性を利用することで、このプロセスをさらに豊かにします。しかし、現在のグラフベースのRAGアプローチでは、グラフ構造の設計が十分に重視されていません。不適切に設計されたグラフは、多様なグラフアルゴリズムのシームレスな統合を妨げるだけでなく、ワークフローの不整合や性能の低下を引き起こします。グラフのRAGにおける潜在能力をさらに引き出すために、我々はNodeRAGを提案します。これは、グラフ中心のフレームワークであり、異種グラフ構造を導入することで、グラフベースの手法をRAGワークフローにシームレスかつ包括的に統合することを可能にします。このフレームワークは、LLMの能力に密接に連携することで、完全に一貫性があり効率的なエンドツーエンドプロセスを保証します。広範な実験を通じて、NodeRAGが、GraphRAGやLightRAGなどの従来の手法に対して、インデックス作成時間、クエリ時間、ストレージ効率だけでなく、マルチホップベンチマークや最小限の検索トークンを使用したオープンエンドのヘッドツーヘッド評価においても優れた質問応答性能を示すことを実証しました。我々のGitHubリポジトリは、https://github.com/Terry-Xu-666/NodeRAG でご覧いただけます。
English
Retrieval-augmented generation (RAG) empowers large language models to access
external and private corpus, enabling factually consistent responses in
specific domains. By exploiting the inherent structure of the corpus,
graph-based RAG methods further enrich this process by building a knowledge
graph index and leveraging the structural nature of graphs. However, current
graph-based RAG approaches seldom prioritize the design of graph structures.
Inadequately designed graph not only impede the seamless integration of diverse
graph algorithms but also result in workflow inconsistencies and degraded
performance. To further unleash the potential of graph for RAG, we propose
NodeRAG, a graph-centric framework introducing heterogeneous graph structures
that enable the seamless and holistic integration of graph-based methodologies
into the RAG workflow. By aligning closely with the capabilities of LLMs, this
framework ensures a fully cohesive and efficient end-to-end process. Through
extensive experiments, we demonstrate that NodeRAG exhibits performance
advantages over previous methods, including GraphRAG and LightRAG, not only in
indexing time, query time, and storage efficiency but also in delivering
superior question-answering performance on multi-hop benchmarks and open-ended
head-to-head evaluations with minimal retrieval tokens. Our GitHub repository
could be seen at https://github.com/Terry-Xu-666/NodeRAG.Summary
AI-Generated Summary