Árbol Abstracto Jerárquico para la Generación Aumentada por Recuperación de Documentos Cruzados

Resumen

La generación aumentada por recuperación (RAG, por sus siglas en inglés) mejora los modelos de lenguaje extensos con conocimiento externo, y el RAG basado en árboles organiza los documentos en índices jerárquicos para soportar consultas a múltiples niveles de granularidad. Sin embargo, los métodos existentes de Tree-RAG diseñados para la recuperación de documentos individuales enfrentan desafíos críticos al escalar a preguntas multihop entre documentos: (1) pobre adaptabilidad distribucional, donde el agrupamiento k-means introduce ruido debido a supuestos de distribución rígidos; (2) aislamiento estructural, ya que los índices de árbol carecen de conexiones explícitas entre documentos; y (3) abstracción gruesa, que oculta detalles de grano fino. Para abordar estas limitaciones, proponemos Ψ-RAG, un framework Tree-RAG con dos componentes clave. Primero, un índice de árbol abstracto jerárquico construido mediante un proceso iterativo de "fusión y colapso" que se adapta a las distribuciones de datos sin supuestos a priori. Segundo, un agente de recuperación multigranular que interactúa inteligentemente con la base de conocimiento mediante consultas reorganizadas y un recuperador híbrido impulsado por agentes. Ψ-RAG soporta diversas tareas, desde la respuesta a preguntas a nivel de token hasta la síntesis a nivel de documento. En benchmarks de QA multihop entre documentos, supera a RAPTOR en un 25.9% y a HippoRAG 2 en un 7.4% en la puntuación F1 promedio. El código está disponible en https://github.com/Newiz430/Psi-RAG.

English

Retrieval-augmented generation (RAG) enhances large language models with external knowledge, and tree-based RAG organizes documents into hierarchical indexes to support queries at multiple granularities. However, existing Tree-RAG methods designed for single-document retrieval face critical challenges in scaling to cross-document multi-hop questions: (1) poor distribution adaptability, where k-means clustering introduces noise due to rigid distribution assumptions; (2) structural isolation, as tree indexes lack explicit cross-document connections; and (3) coarse abstraction, which obscures fine-grained details. To address these limitations, we propose Ψ-RAG, a tree-RAG framework with two key components. First, a hierarchical abstract tree index built through an iterative "merging and collapse" process that adapts to data distributions without a priori assumption. Second, a multi-granular retrieval agent that intelligently interacts with the knowledge base with reorganized queries and an agent-powered hybrid retriever. Ψ-RAG supports diverse tasks from token-level question answering to document-level summarization. On cross-document multi-hop QA benchmarks, it outperforms RAPTOR by 25.9% and HippoRAG 2 by 7.4% in average F1 score. Code is available at https://github.com/Newiz430/Psi-RAG.

Árbol Abstracto Jerárquico para la Generación Aumentada por Recuperación de Documentos Cruzados

Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation

Resumen

Support