Иерархическое абстрактное дерево для поисково-усиленной генерации на основе кросс-документного извлечения

Аннотация

Генерация с расширением выборки (RAG) расширяет возможности больших языковых моделей за счет привлечения внешних знаний, а древовидная RAG организует документы в иерархические индексы для поддержки запросов на разных уровнях детализации. Однако существующие методы Tree-RAG, разработанные для поиска в рамках одного документа, сталкиваются с серьезными проблемами при масштабировании на междокументные многошаговые вопросы: (1) низкая адаптивность к распределению данных, когда кластеризация k-средних вносит шум из-за жестких предположений о распределении; (2) структурная изолированность, поскольку древовидные индексы не имеют явных междокументных связей; и (3) грубая абстракция, скрывающая детализированную информацию. Для преодоления этих ограничений мы предлагаем Ψ-RAG — фреймворк Tree-RAG с двумя ключевыми компонентами. Во-первых, иерархический абстрактный древовидный индекс, построенный посредством итеративного процесса «слияния и коллапса», который адаптируется к распределению данных без априорных предположений. Во-вторых, агент многоуровневого поиска, который интеллектуально взаимодействует с базой знаний посредством реорганизованных запросов и гибридного механизма поиска на основе агента. Ψ-RAG поддерживает diverse задачи — от ответов на вопросы на уровне токенов до суммаризации на уровне документов. На бенчмарках междокументного многошагового вопросно-ответного поиска метод превосходит RAPTOR на 25.9% и HippoRAG 2 на 7.4% по среднему показателю F1. Код доступен по адресу https://github.com/Newiz430/Psi-RAG.

English

Retrieval-augmented generation (RAG) enhances large language models with external knowledge, and tree-based RAG organizes documents into hierarchical indexes to support queries at multiple granularities. However, existing Tree-RAG methods designed for single-document retrieval face critical challenges in scaling to cross-document multi-hop questions: (1) poor distribution adaptability, where k-means clustering introduces noise due to rigid distribution assumptions; (2) structural isolation, as tree indexes lack explicit cross-document connections; and (3) coarse abstraction, which obscures fine-grained details. To address these limitations, we propose Ψ-RAG, a tree-RAG framework with two key components. First, a hierarchical abstract tree index built through an iterative "merging and collapse" process that adapts to data distributions without a priori assumption. Second, a multi-granular retrieval agent that intelligently interacts with the knowledge base with reorganized queries and an agent-powered hybrid retriever. Ψ-RAG supports diverse tasks from token-level question answering to document-level summarization. On cross-document multi-hop QA benchmarks, it outperforms RAPTOR by 25.9% and HippoRAG 2 by 7.4% in average F1 score. Code is available at https://github.com/Newiz430/Psi-RAG.

Иерархическое абстрактное дерево для поисково-усиленной генерации на основе кросс-документного извлечения

Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation

Аннотация

Support