BubbleRAG: Generación Aumentada por Recuperación Basada en Evidencia para Grafos de Conocimiento de Caja Negra

Resumen

Los Modelos de Lenguaje Grandes (LLMs) exhiben alucinaciones en tareas intensivas en conocimiento. La generación aumentada por recuperación basada en grafos (RAG) ha surgido como una solución prometedora, sin embargo, los enfoques existentes adolecen de limitaciones fundamentales de exhaustividad (recall) y precisión cuando operan sobre grafos de conocimiento de caja negra (black-box) —grafos cuyo esquema y estructura se desconocen de antemano. Identificamos tres desafíos centrales que causan pérdida de exhaustividad (incertidumbre en la instanciación semántica e incertidumbre en la ruta estructural) y pérdida de precisión (incertidumbre en la comparación evidencial). Para abordar estos desafíos, formalizamos la tarea de recuperación como el problema de Recuperación del Subgrafo Informativo Óptimo (Optimal Informative Subgraph Retrieval, OISR) —una variante del Problema del Árbol de Steiner para Grupos— y demostramos que es NP-difícil y APX-difícil. Proponemos BubbleRAG, un pipeline que no requiere entrenamiento y que optimiza sistemáticamente tanto la exhaustividad como la precisión mediante agrupación de anclajes semánticos, expansión heurística en burbujas para descubrir grafos de evidencia candidatos (Candidate Evidence Graphs, CEGs), ranking compuesto y expansión consciente del razonamiento. Los experimentos en benchmarks de preguntas y respuestas de múltiples saltos (multi-hop QA) demuestran que BubbleRAG logra resultados de vanguardia, superando a líneas base sólidas tanto en F1 como en precisión (accuracy), manteniéndose además plug-and-play.

English

Large Language Models (LLMs) exhibit hallucinations in knowledge-intensive tasks. Graph-based retrieval augmented generation (RAG) has emerged as a promising solution, yet existing approaches suffer from fundamental recall and precision limitations when operating over black-box knowledge graphs -- graphs whose schema and structure are unknown in advance. We identify three core challenges that cause recall loss (semantic instantiation uncertainty and structural path uncertainty) and precision loss (evidential comparison uncertainty). To address these challenges, we formalize the retrieval task as the Optimal Informative Subgraph Retrieval (OISR) problem -- a variant of Group Steiner Tree -- and prove it to be NP-hard and APX-hard. We propose BubbleRAG, a training-free pipeline that systematically optimizes for both recall and precision through semantic anchor grouping, heuristic bubble expansion to discover candidate evidence graphs (CEGs), composite ranking, and reasoning-aware expansion. Experiments on multi-hop QA benchmarks demonstrate that BubbleRAG achieves state-of-the-art results, outperforming strong baselines in both F1 and accuracy while remaining plug-and-play.

BubbleRAG: Generación Aumentada por Recuperación Basada en Evidencia para Grafos de Conocimiento de Caja Negra

BubbleRAG: Evidence-Driven Retrieval-Augmented Generation for Black-Box Knowledge Graphs

Resumen

Support