Arbre Abstrait Hiérarchique pour la Génération Augmentée par Récupération Inter-Documentaire

Résumé

La génération augmentée par récupération (RAG) améliore les grands modèles de langage avec des connaissances externes, et le RAG arborescent organise les documents en index hiérarchiques pour supporter des requêtes à granularités multiples. Cependant, les méthodes Tree-RAG existantes conçues pour la récupération mono-document rencontrent des défis critiques pour passer aux questions multi-sauts inter-documents : (1) une faible adaptabilité distributionnelle, où le clustering k-moyennes introduit du bruit à cause d'hypothèses distributionnelles rigides ; (2) un isolement structurel, car les index arborescents manquent de connexions explicites entre documents ; et (3) une abstraction grossière, qui occulte les détails fins. Pour résoudre ces limitations, nous proposons Ψ-RAG, un framework Tree-RAG avec deux composants clés. Premièrement, un index arborescent d'abstraction hiérarchique construit via un processus itératif de « fusion et effondrement » qui s'adapte aux distributions de données sans assumption a priori. Deuxièmement, un agent de récupération multi-granularité qui interagit intelligemment avec la base de connaissances via des requêtes réorganisées et un récupérateur hybride piloté par agent. Ψ-RAG supporte des tâches variées, allant du question-réponse au niveau token jusqu'à la synthèse au niveau document. Sur des benchmarks de questions-réponses multi-sauts inter-documents, il surpasse RAPTOR de 25,9 % et HippoRAG 2 de 7,4 % en score F1 moyen. Le code est disponible à l'adresse https://github.com/Newiz430/Psi-RAG.

English

Retrieval-augmented generation (RAG) enhances large language models with external knowledge, and tree-based RAG organizes documents into hierarchical indexes to support queries at multiple granularities. However, existing Tree-RAG methods designed for single-document retrieval face critical challenges in scaling to cross-document multi-hop questions: (1) poor distribution adaptability, where k-means clustering introduces noise due to rigid distribution assumptions; (2) structural isolation, as tree indexes lack explicit cross-document connections; and (3) coarse abstraction, which obscures fine-grained details. To address these limitations, we propose Ψ-RAG, a tree-RAG framework with two key components. First, a hierarchical abstract tree index built through an iterative "merging and collapse" process that adapts to data distributions without a priori assumption. Second, a multi-granular retrieval agent that intelligently interacts with the knowledge base with reorganized queries and an agent-powered hybrid retriever. Ψ-RAG supports diverse tasks from token-level question answering to document-level summarization. On cross-document multi-hop QA benchmarks, it outperforms RAPTOR by 25.9% and HippoRAG 2 by 7.4% in average F1 score. Code is available at https://github.com/Newiz430/Psi-RAG.

Arbre Abstrait Hiérarchique pour la Génération Augmentée par Récupération Inter-Documentaire

Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation

Résumé

Support