Árbol Abstracto Jerárquico para la Generación Aumentada por Recuperación de Documentos Cruzados
Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation
May 1, 2026
Autores: Ziwen Zhao, Menglin Yang
cs.AI
Resumen
La generación aumentada por recuperación (RAG, por sus siglas en inglés) mejora los modelos de lenguaje extensos con conocimiento externo, y el RAG basado en árboles organiza los documentos en índices jerárquicos para soportar consultas a múltiples niveles de granularidad. Sin embargo, los métodos existentes de Tree-RAG diseñados para la recuperación de documentos individuales enfrentan desafíos críticos al escalar a preguntas multihop entre documentos: (1) pobre adaptabilidad distribucional, donde el agrupamiento k-means introduce ruido debido a supuestos de distribución rígidos; (2) aislamiento estructural, ya que los índices de árbol carecen de conexiones explícitas entre documentos; y (3) abstracción gruesa, que oculta detalles de grano fino. Para abordar estas limitaciones, proponemos Ψ-RAG, un framework Tree-RAG con dos componentes clave. Primero, un índice de árbol abstracto jerárquico construido mediante un proceso iterativo de "fusión y colapso" que se adapta a las distribuciones de datos sin supuestos a priori. Segundo, un agente de recuperación multigranular que interactúa inteligentemente con la base de conocimiento mediante consultas reorganizadas y un recuperador híbrido impulsado por agentes. Ψ-RAG soporta diversas tareas, desde la respuesta a preguntas a nivel de token hasta la síntesis a nivel de documento. En benchmarks de QA multihop entre documentos, supera a RAPTOR en un 25.9% y a HippoRAG 2 en un 7.4% en la puntuación F1 promedio. El código está disponible en https://github.com/Newiz430/Psi-RAG.
English
Retrieval-augmented generation (RAG) enhances large language models with external knowledge, and tree-based RAG organizes documents into hierarchical indexes to support queries at multiple granularities. However, existing Tree-RAG methods designed for single-document retrieval face critical challenges in scaling to cross-document multi-hop questions: (1) poor distribution adaptability, where k-means clustering introduces noise due to rigid distribution assumptions; (2) structural isolation, as tree indexes lack explicit cross-document connections; and (3) coarse abstraction, which obscures fine-grained details. To address these limitations, we propose Ψ-RAG, a tree-RAG framework with two key components. First, a hierarchical abstract tree index built through an iterative "merging and collapse" process that adapts to data distributions without a priori assumption. Second, a multi-granular retrieval agent that intelligently interacts with the knowledge base with reorganized queries and an agent-powered hybrid retriever. Ψ-RAG supports diverse tasks from token-level question answering to document-level summarization. On cross-document multi-hop QA benchmarks, it outperforms RAPTOR by 25.9% and HippoRAG 2 by 7.4% in average F1 score. Code is available at https://github.com/Newiz430/Psi-RAG.