ChatPaper.aiChatPaper

NodeRAG:異種ノードを用いたグラフベースRAGの構造化

NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes

April 15, 2025
著者: Tianyang Xu, Haojie Zheng, Chengze Li, Haoxiang Chen, Yixin Liu, Ruoxi Chen, Lichao Sun
cs.AI

要旨

検索拡張生成(RAG)は、大規模言語モデルが外部およびプライベートなコーパスにアクセスすることを可能にし、特定のドメインにおいて事実に基づいた一貫性のある応答を実現します。グラフベースのRAG手法は、コーパスの内在的な構造を活用し、知識グラフインデックスを構築し、グラフの構造的特性を利用することで、このプロセスをさらに豊かにします。しかし、現在のグラフベースのRAGアプローチでは、グラフ構造の設計が十分に重視されていません。不適切に設計されたグラフは、多様なグラフアルゴリズムのシームレスな統合を妨げるだけでなく、ワークフローの不整合や性能の低下を引き起こします。グラフのRAGにおける潜在能力をさらに引き出すために、我々はNodeRAGを提案します。これは、グラフ中心のフレームワークであり、異種グラフ構造を導入することで、グラフベースの手法をRAGワークフローにシームレスかつ包括的に統合することを可能にします。このフレームワークは、LLMの能力に密接に連携することで、完全に一貫性があり効率的なエンドツーエンドプロセスを保証します。広範な実験を通じて、NodeRAGが、GraphRAGやLightRAGなどの従来の手法に対して、インデックス作成時間、クエリ時間、ストレージ効率だけでなく、マルチホップベンチマークや最小限の検索トークンを使用したオープンエンドのヘッドツーヘッド評価においても優れた質問応答性能を示すことを実証しました。我々のGitHubリポジトリは、https://github.com/Terry-Xu-666/NodeRAG でご覧いただけます。
English
Retrieval-augmented generation (RAG) empowers large language models to access external and private corpus, enabling factually consistent responses in specific domains. By exploiting the inherent structure of the corpus, graph-based RAG methods further enrich this process by building a knowledge graph index and leveraging the structural nature of graphs. However, current graph-based RAG approaches seldom prioritize the design of graph structures. Inadequately designed graph not only impede the seamless integration of diverse graph algorithms but also result in workflow inconsistencies and degraded performance. To further unleash the potential of graph for RAG, we propose NodeRAG, a graph-centric framework introducing heterogeneous graph structures that enable the seamless and holistic integration of graph-based methodologies into the RAG workflow. By aligning closely with the capabilities of LLMs, this framework ensures a fully cohesive and efficient end-to-end process. Through extensive experiments, we demonstrate that NodeRAG exhibits performance advantages over previous methods, including GraphRAG and LightRAG, not only in indexing time, query time, and storage efficiency but also in delivering superior question-answering performance on multi-hop benchmarks and open-ended head-to-head evaluations with minimal retrieval tokens. Our GitHub repository could be seen at https://github.com/Terry-Xu-666/NodeRAG.

Summary

AI-Generated Summary

PDF412April 21, 2025