Hiërarchische Abstracte Boom voor Cross-Document Retrieval-Augmented Generation

Samenvatting

Retrieval-augmented generation (RAG) versterkt grote taalmodel(len) met externe kennis, waarbij op bomen gebaseerde RAG documenten organiseert in hiërarchische indexen om queries op meerdere granulariteiten te ondersteunen. Bestaande Tree-RAG-methoden, ontworpen voor retriev(al) uit één document, kampen echter met kritieke uitdagingen bij het schalen naar multi-hop vragen over meerdere documenten: (1) slechte distributie-adaptatie, waarbij k-means-clustering ruis introduceert door rigide distributieaannames; (2) structurele isolatie, omdat boomindexen expliciete verbindingen tussen documenten missen; en (3) grove abstractie, waardoor fijnmazige details verloren gaan. Om deze beperkingen aan te pakken, stellen we Ψ-RAG voor, een tree-RAG-framework met twee kerncomponenten. Ten eerste een hiërarchische abstracte boomindex, opgebouwd via een iteratief "samenvoeg- en collaps"-proces dat zich aanpast aan datadistributies zonder a priori-aanname. Ten tweede een multi-granulaire retriev(al)-agent die intelligent interacteert met de kennisbank via herziene queries en een hybride retriever aangedreven door een agent. Ψ-RAG ondersteunt uiteenlopende taken, van vraagbeantwoording op tokenniveau tot samenvatting op documentniveau. Op benchmarks voor multi-hop vraagbeantwoording over meerdere documenten presteert het gemiddeld 25,9% beter dan RAPTOR en 7,4% beter dan HippoRAG 2 in F1-score. Code is beschikbaar op https://github.com/Newiz430/Psi-RAG.

English

Retrieval-augmented generation (RAG) enhances large language models with external knowledge, and tree-based RAG organizes documents into hierarchical indexes to support queries at multiple granularities. However, existing Tree-RAG methods designed for single-document retrieval face critical challenges in scaling to cross-document multi-hop questions: (1) poor distribution adaptability, where k-means clustering introduces noise due to rigid distribution assumptions; (2) structural isolation, as tree indexes lack explicit cross-document connections; and (3) coarse abstraction, which obscures fine-grained details. To address these limitations, we propose Ψ-RAG, a tree-RAG framework with two key components. First, a hierarchical abstract tree index built through an iterative "merging and collapse" process that adapts to data distributions without a priori assumption. Second, a multi-granular retrieval agent that intelligently interacts with the knowledge base with reorganized queries and an agent-powered hybrid retriever. Ψ-RAG supports diverse tasks from token-level question answering to document-level summarization. On cross-document multi-hop QA benchmarks, it outperforms RAPTOR by 25.9% and HippoRAG 2 by 7.4% in average F1 score. Code is available at https://github.com/Newiz430/Psi-RAG.

Hiërarchische Abstracte Boom voor Cross-Document Retrieval-Augmented Generation

Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation

Samenvatting

Support