BubbleRAG: Geração Aumentada por Recuperação Baseada em Evidências para Grafos de Conhecimento de Caixa-Preta

Resumo

Os Modelos de Linguagem de Grande Porte (LLMs) exibem alucinações em tarefas que exigem conhecimento intensivo. A Geração Aumentada por Recuperação baseada em grafos (Graph-based RAG) surgiu como uma solução promissora, no entanto, as abordagens existentes sofrem com limitações fundamentais de recuperação (recall) e precisão ao operar sobre grafos de conhecimento de caixa-preta (black-box) – grafos cujo esquema e estrutura são desconhecidos antecipadamente. Nós identificamos três desafios centrais que causam perda de recuperação (incerteza na instanciação semântica e incerteza do caminho estrutural) e perda de precisão (incerteza na comparação evidencial). Para enfrentar esses desafios, formalizamos a tarefa de recuperação como o problema de Recuperação do Subgrafo Informativo Ótimo (Optimal Informative Subgraph Retrieval - OISR) – uma variante da Árvore de Steiner de Grupo – e provamos que ele é NP-difícil e APX-difícil. Propomos o BubbleRAG, um *pipeline* que não requer treinamento e que otimiza sistematicamente tanto a recuperação quanto a precisão através do agrupamento de âncoras semânticas, expansão heurística em bolha para descobrir grafos de evidência candidatos (CEGs), ranqueamento composto e expansão com consciência do raciocínio. Experimentos em benchmarks de QA de múltiplos saltos (multi-hop) demonstram que o BubbleRAG alcança resultados de última geração, superando *baselines* fortes tanto em F1 quanto em precisão (accuracy), mantendo-se *plug-and-play*.

English

Large Language Models (LLMs) exhibit hallucinations in knowledge-intensive tasks. Graph-based retrieval augmented generation (RAG) has emerged as a promising solution, yet existing approaches suffer from fundamental recall and precision limitations when operating over black-box knowledge graphs -- graphs whose schema and structure are unknown in advance. We identify three core challenges that cause recall loss (semantic instantiation uncertainty and structural path uncertainty) and precision loss (evidential comparison uncertainty). To address these challenges, we formalize the retrieval task as the Optimal Informative Subgraph Retrieval (OISR) problem -- a variant of Group Steiner Tree -- and prove it to be NP-hard and APX-hard. We propose BubbleRAG, a training-free pipeline that systematically optimizes for both recall and precision through semantic anchor grouping, heuristic bubble expansion to discover candidate evidence graphs (CEGs), composite ranking, and reasoning-aware expansion. Experiments on multi-hop QA benchmarks demonstrate that BubbleRAG achieves state-of-the-art results, outperforming strong baselines in both F1 and accuracy while remaining plug-and-play.