BubbleRAG: Основанная на доказательствах генерация с расширением поиска для черного ящика графов знаний

Аннотация

Крупные языковые модели (LLM) демонстрируют галлюцинации при выполнении задач, требующих работы со знаниями. Графовая генерация с расширением на основе поиска (RAG) показала себя как перспективное решение, однако существующие подходы страдают от фундаментальных ограничений по полноте и точности при работе с "черными ящиками" графов знаний — графами, схема и структура которых заранее неизвестны. Мы выделяем три ключевые проблемы, вызывающие потерю полноты (неопределенность семантической инстанциировки и неопределенность структурных путей) и потерю точности (неопределенность сравнительной оценки доказательств). Для решения этих проблем мы формализуем задачу поиска как задачу поиска оптимального информативного подграфа (Optimal Informative Subgraph Retrieval, OISR) — вариант задачи о групповом дереве Штейнера — и доказываем, что она является NP-трудной и APX-трудной. Мы предлагаем BubbleRAG, не требующий обучения конвейер, который системно оптимизирует как полноту, так и точность за счет семантической группировки якорей, эвристического пузырькового расширения для обнаружения графов-кандидатов на роль доказательств (CEG), композитного ранжирования и расширения с учетом логического вывода. Эксперименты на бенчмарках многозвенного вопросно-ответного поиска показывают, что BubbleRAG достигает наилучших результатов, превосходя сильные базовые методы как по F1-мере, так и по точности, оставаясь при этом решением типа "plug-and-play".

English

Large Language Models (LLMs) exhibit hallucinations in knowledge-intensive tasks. Graph-based retrieval augmented generation (RAG) has emerged as a promising solution, yet existing approaches suffer from fundamental recall and precision limitations when operating over black-box knowledge graphs -- graphs whose schema and structure are unknown in advance. We identify three core challenges that cause recall loss (semantic instantiation uncertainty and structural path uncertainty) and precision loss (evidential comparison uncertainty). To address these challenges, we formalize the retrieval task as the Optimal Informative Subgraph Retrieval (OISR) problem -- a variant of Group Steiner Tree -- and prove it to be NP-hard and APX-hard. We propose BubbleRAG, a training-free pipeline that systematically optimizes for both recall and precision through semantic anchor grouping, heuristic bubble expansion to discover candidate evidence graphs (CEGs), composite ranking, and reasoning-aware expansion. Experiments on multi-hop QA benchmarks demonstrate that BubbleRAG achieves state-of-the-art results, outperforming strong baselines in both F1 and accuracy while remaining plug-and-play.

BubbleRAG: Основанная на доказательствах генерация с расширением поиска для черного ящика графов знаний

BubbleRAG: Evidence-Driven Retrieval-Augmented Generation for Black-Box Knowledge Graphs

Аннотация

Support