Hierarchischer Abstraktbaum für dokumenübergreifende, retrieval-augmentierte Generierung

Zusammenfassung

Retrieval-augmented Generation (RAG) erweitert große Sprachmodelle um externes Wissen, und baumbasierte RAG-Methoden organisieren Dokumente in hierarchischen Indizes, um Abfragen auf mehreren Granularitätsebenen zu unterstützen. Bestehende Tree-RAG-Methoden, die für den Einzeldokumentenabruf konzipiert sind, stehen jedoch vor großen Herausforderungen bei der Skalierung auf dokumentsübergreifende Multi-Hop-Fragen: (1) Geringe Verteilungsanpassungsfähigkeit, bei der k-Means-Clustering aufgrund starrer Verteilungsannahmen Rauschen einführt; (2) Strukturelle Isolation, da Baumindizes explizite dokumentsübergreifende Verbindungen vermissen; und (3) Grobe Abstraktion, die feinkörnige Details verschleiert. Um diese Einschränkungen zu überwinden, schlagen wir Ψ-RAG vor, einen Tree-RAG-Rahmen mit zwei Schlüsselkomponenten. Erstens, ein hierarchischer abstrakter Baumindex, der durch einen iterativen "Merge-and-Collapse"-Prozess erstellt wird und sich ohne A-priori-Annahme an Datenverteilungen anpasst. Zweitens, ein Multi-Granularitäts-Retrieval-Agent, der intelligent mit der Wissensbasis mittels reorganisierter Abfragen und eines agentengesteuerten Hybrid-Retrievers interagiert. Ψ-RAG unterstützt diverse Aufgaben, von token-basiertem Question Answering bis zu dokumentenbasierter Zusammenfassung. Auf Benchmarks für dokumentsübergreifende Multi-Hop-Fragen übertrifft es RAPTOR um 25,9 % und HippoRAG 2 um 7,4 % im durchschnittlichen F1-Score. Der Code ist verfügbar unter https://github.com/Newiz430/Psi-RAG.

English

Retrieval-augmented generation (RAG) enhances large language models with external knowledge, and tree-based RAG organizes documents into hierarchical indexes to support queries at multiple granularities. However, existing Tree-RAG methods designed for single-document retrieval face critical challenges in scaling to cross-document multi-hop questions: (1) poor distribution adaptability, where k-means clustering introduces noise due to rigid distribution assumptions; (2) structural isolation, as tree indexes lack explicit cross-document connections; and (3) coarse abstraction, which obscures fine-grained details. To address these limitations, we propose Ψ-RAG, a tree-RAG framework with two key components. First, a hierarchical abstract tree index built through an iterative "merging and collapse" process that adapts to data distributions without a priori assumption. Second, a multi-granular retrieval agent that intelligently interacts with the knowledge base with reorganized queries and an agent-powered hybrid retriever. Ψ-RAG supports diverse tasks from token-level question answering to document-level summarization. On cross-document multi-hop QA benchmarks, it outperforms RAPTOR by 25.9% and HippoRAG 2 by 7.4% in average F1 score. Code is available at https://github.com/Newiz430/Psi-RAG.

Hierarchischer Abstraktbaum für dokumenübergreifende, retrieval-augmentierte Generierung

Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation

Zusammenfassung

Support