ChatPaper.aiChatPaper

NodeRAG: 이종 노드를 활용한 그래프 기반 RAG 구조화

NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes

April 15, 2025
저자: Tianyang Xu, Haojie Zheng, Chengze Li, Haoxiang Chen, Yixin Liu, Ruoxi Chen, Lichao Sun
cs.AI

초록

검색 강화 생성(Retrieval-augmented generation, RAG)은 대규모 언어 모델이 외부 및 개인 코퍼스에 접근할 수 있도록 하여 특정 도메인에서 사실적으로 일관된 응답을 가능하게 합니다. 그래프 기반 RAG 방법은 코퍼스의 내재적 구조를 활용하여 지식 그래프 인덱스를 구축하고 그래프의 구조적 특성을 활용함으로써 이 과정을 더욱 풍부하게 합니다. 그러나 현재의 그래프 기반 RAG 접근법은 그래프 구조 설계에 거의 주의를 기울이지 않습니다. 부적절하게 설계된 그래프는 다양한 그래프 알고리즘의 원활한 통합을 방해할 뿐만 아니라 워크플로우의 불일치와 성능 저하를 초래합니다. 그래프의 잠재력을 RAG에서 더욱 발휘하기 위해, 우리는 NodeRAG를 제안합니다. 이는 그래프 중심의 프레임워크로, 이종 그래프 구조를 도입하여 그래프 기반 방법론을 RAG 워크플로우에 원활하고 전체적으로 통합할 수 있게 합니다. 이 프레임워크는 LLM의 기능과 긴밀하게 조율되어 완전히 통합되고 효율적인 엔드투엔드 프로세스를 보장합니다. 광범위한 실험을 통해, 우리는 NodeRAG가 인덱싱 시간, 쿼리 시간, 저장 효율성뿐만 아니라 멀티홉 벤치마크와 최소 검색 토큰을 사용한 개방형 헤드투헤드 평가에서도 이전의 GraphRAG 및 LightRAG 방법보다 우수한 질문-응답 성능을 보인다는 것을 입증했습니다. 우리의 GitHub 저장소는 https://github.com/Terry-Xu-666/NodeRAG에서 확인할 수 있습니다.
English
Retrieval-augmented generation (RAG) empowers large language models to access external and private corpus, enabling factually consistent responses in specific domains. By exploiting the inherent structure of the corpus, graph-based RAG methods further enrich this process by building a knowledge graph index and leveraging the structural nature of graphs. However, current graph-based RAG approaches seldom prioritize the design of graph structures. Inadequately designed graph not only impede the seamless integration of diverse graph algorithms but also result in workflow inconsistencies and degraded performance. To further unleash the potential of graph for RAG, we propose NodeRAG, a graph-centric framework introducing heterogeneous graph structures that enable the seamless and holistic integration of graph-based methodologies into the RAG workflow. By aligning closely with the capabilities of LLMs, this framework ensures a fully cohesive and efficient end-to-end process. Through extensive experiments, we demonstrate that NodeRAG exhibits performance advantages over previous methods, including GraphRAG and LightRAG, not only in indexing time, query time, and storage efficiency but also in delivering superior question-answering performance on multi-hop benchmarks and open-ended head-to-head evaluations with minimal retrieval tokens. Our GitHub repository could be seen at https://github.com/Terry-Xu-666/NodeRAG.

Summary

AI-Generated Summary

PDF412April 21, 2025