NodeRAG: 이종 노드를 활용한 그래프 기반 RAG 구조화
NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes
April 15, 2025
저자: Tianyang Xu, Haojie Zheng, Chengze Li, Haoxiang Chen, Yixin Liu, Ruoxi Chen, Lichao Sun
cs.AI
초록
검색 강화 생성(Retrieval-augmented generation, RAG)은 대규모 언어 모델이 외부 및 개인 코퍼스에 접근할 수 있도록 하여 특정 도메인에서 사실적으로 일관된 응답을 가능하게 합니다. 그래프 기반 RAG 방법은 코퍼스의 내재적 구조를 활용하여 지식 그래프 인덱스를 구축하고 그래프의 구조적 특성을 활용함으로써 이 과정을 더욱 풍부하게 합니다. 그러나 현재의 그래프 기반 RAG 접근법은 그래프 구조 설계에 거의 주의를 기울이지 않습니다. 부적절하게 설계된 그래프는 다양한 그래프 알고리즘의 원활한 통합을 방해할 뿐만 아니라 워크플로우의 불일치와 성능 저하를 초래합니다. 그래프의 잠재력을 RAG에서 더욱 발휘하기 위해, 우리는 NodeRAG를 제안합니다. 이는 그래프 중심의 프레임워크로, 이종 그래프 구조를 도입하여 그래프 기반 방법론을 RAG 워크플로우에 원활하고 전체적으로 통합할 수 있게 합니다. 이 프레임워크는 LLM의 기능과 긴밀하게 조율되어 완전히 통합되고 효율적인 엔드투엔드 프로세스를 보장합니다. 광범위한 실험을 통해, 우리는 NodeRAG가 인덱싱 시간, 쿼리 시간, 저장 효율성뿐만 아니라 멀티홉 벤치마크와 최소 검색 토큰을 사용한 개방형 헤드투헤드 평가에서도 이전의 GraphRAG 및 LightRAG 방법보다 우수한 질문-응답 성능을 보인다는 것을 입증했습니다. 우리의 GitHub 저장소는 https://github.com/Terry-Xu-666/NodeRAG에서 확인할 수 있습니다.
English
Retrieval-augmented generation (RAG) empowers large language models to access
external and private corpus, enabling factually consistent responses in
specific domains. By exploiting the inherent structure of the corpus,
graph-based RAG methods further enrich this process by building a knowledge
graph index and leveraging the structural nature of graphs. However, current
graph-based RAG approaches seldom prioritize the design of graph structures.
Inadequately designed graph not only impede the seamless integration of diverse
graph algorithms but also result in workflow inconsistencies and degraded
performance. To further unleash the potential of graph for RAG, we propose
NodeRAG, a graph-centric framework introducing heterogeneous graph structures
that enable the seamless and holistic integration of graph-based methodologies
into the RAG workflow. By aligning closely with the capabilities of LLMs, this
framework ensures a fully cohesive and efficient end-to-end process. Through
extensive experiments, we demonstrate that NodeRAG exhibits performance
advantages over previous methods, including GraphRAG and LightRAG, not only in
indexing time, query time, and storage efficiency but also in delivering
superior question-answering performance on multi-hop benchmarks and open-ended
head-to-head evaluations with minimal retrieval tokens. Our GitHub repository
could be seen at https://github.com/Terry-Xu-666/NodeRAG.Summary
AI-Generated Summary