교차 문서 검색-증강 생성을 위한 계층적 추상 트리
Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation
May 1, 2026
저자: Ziwen Zhao, Menglin Yang
cs.AI
초록
검색 증강 생성(RAG)은 외부 지식을 통해 대규모 언어 모델을 향상시키며, 트리 기반 RAG는 문서를 계층적 인덱스로 구성하여 다양한 세분화 수준의 질의를 지원합니다. 그러나 단일 문서 검색을 위해 설계된 기존 Tree-RAG 방법론은 문서 간 다중 홉 질문으로 확장하는 데 있어 중요한 과제에 직면합니다: (1) k-평균 클러스터링이 경직된 분포 가정으로 인해 노이즈를 유발하는 불량한 분포 적응성, (2) 트리 인덱스가 명시적인 문서 간 연결을 결여하는 구조적 고립, (3) 세부 사항을 흐리게 만드는 추상화의 과도한 단순화. 이러한 한계를 해결하기 위해 두 가지 핵심 구성 요소를 가진 트리 RAG 프레임워크인 Ψ-RAG를 제안합니다. 첫째, 사전 가정 없이 데이터 분포에 적응하는 반복적인 "병합 및 축소" 과정을 통해 구축된 계층적 추상 트리 인덱스입니다. 둘째, 재구성된 질의와 에이전트 기반 하이브리드 검색기로 지식 베이스와 지능적으로 상호작용하는 다중 세분화 검색 에이전트입니다. Ψ-RAG는 토큰 수준 질의응답부터 문서 수준 요약에 이르기까지 다양한 작업을 지원합니다. 문서 간 다중 홉 질의응답 벤치마크에서 평균 F1 점수 기준으로 RAPTOR보다 25.9%, HippoRAG 2보다 7.4% 우수한 성능을 보였습니다. 코드는 https://github.com/Newiz430/Psi-RAG에서 확인할 수 있습니다.
English
Retrieval-augmented generation (RAG) enhances large language models with external knowledge, and tree-based RAG organizes documents into hierarchical indexes to support queries at multiple granularities. However, existing Tree-RAG methods designed for single-document retrieval face critical challenges in scaling to cross-document multi-hop questions: (1) poor distribution adaptability, where k-means clustering introduces noise due to rigid distribution assumptions; (2) structural isolation, as tree indexes lack explicit cross-document connections; and (3) coarse abstraction, which obscures fine-grained details. To address these limitations, we propose Ψ-RAG, a tree-RAG framework with two key components. First, a hierarchical abstract tree index built through an iterative "merging and collapse" process that adapts to data distributions without a priori assumption. Second, a multi-granular retrieval agent that intelligently interacts with the knowledge base with reorganized queries and an agent-powered hybrid retriever. Ψ-RAG supports diverse tasks from token-level question answering to document-level summarization. On cross-document multi-hop QA benchmarks, it outperforms RAPTOR by 25.9% and HippoRAG 2 by 7.4% in average F1 score. Code is available at https://github.com/Newiz430/Psi-RAG.