ChatPaper.aiChatPaper

文書間検索拡張生成のための階層的抽象木

Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation

May 1, 2026
著者: Ziwen Zhao, Menglin Yang
cs.AI

要旨

検索拡張生成(RAG)は大規模言語モデルを外部知識で拡張する技術であり、ツリーベースRAGは文書を階層的インデックスに整理して複数の粒度での問い合わせを支援する。しかし、単一文書検索向けに設計された既存のTree-RAG手法は、文書横断的なマルチホップ質問への拡張において重大な課題に直面している:(1)分布適応性の低さ(k-meansクラスタリングが硬直的な分布仮定によりノイズを導入)、(2)構造的孤立(ツリーインデックスが文書間の明示的接続を欠く)、(3)粗い抽象化(細粒度の詳細が不明瞭化)である。これらの制限を解決するため、我々は2つの核心コンポーネントを備えたツリーRAGフレームワークΨ-RAGを提案する。第一に、データ分布に事前仮定を必要とせず適応する「統合・崩壊」の反復プロセスで構築される階層的抽象ツリーインデックス。第二に、再構成されたクエリとエージェント駆動のハイブリッド検索器で知識ベースと智能的に相互作用するマルチ粒度検索エージェントである。Ψ-RAGはトークンレベルの質疑応答から文書レベルの要約まで多様なタスクをサポートする。文書横断型マルチホップQAベンチマークでは、平均F1スコアでRAPTORを25.9%、HippoRAG 2を7.4%上回った。コードはhttps://github.com/Newiz430/Psi-RAG で公開されている。
English
Retrieval-augmented generation (RAG) enhances large language models with external knowledge, and tree-based RAG organizes documents into hierarchical indexes to support queries at multiple granularities. However, existing Tree-RAG methods designed for single-document retrieval face critical challenges in scaling to cross-document multi-hop questions: (1) poor distribution adaptability, where k-means clustering introduces noise due to rigid distribution assumptions; (2) structural isolation, as tree indexes lack explicit cross-document connections; and (3) coarse abstraction, which obscures fine-grained details. To address these limitations, we propose Ψ-RAG, a tree-RAG framework with two key components. First, a hierarchical abstract tree index built through an iterative "merging and collapse" process that adapts to data distributions without a priori assumption. Second, a multi-granular retrieval agent that intelligently interacts with the knowledge base with reorganized queries and an agent-powered hybrid retriever. Ψ-RAG supports diverse tasks from token-level question answering to document-level summarization. On cross-document multi-hop QA benchmarks, it outperforms RAPTOR by 25.9% and HippoRAG 2 by 7.4% in average F1 score. Code is available at https://github.com/Newiz430/Psi-RAG.
PDF31May 6, 2026