BubbleRAG: Generazione Aumentata dal Recupero Basata su Evidenze per Grafi di Conoscenza Black-Box

Abstract

I grandi modelli linguistici (LLM) manifestano allucinazioni in compiti ad alta intensità di conoscenza. La generazione aumentata dal recupero basata su grafi (Graph-based RAG) è emersa come una soluzione promettente, tuttavia gli approcci esistenti soffrono di limitazioni fondamentali di richiamo e precisione quando operano su grafi conoscitivi a scatola chiusa (black-box) – grafi il cui schema e struttura non sono noti a priori. Identifichiamo tre sfide fondamentali che causano perdita di richiamo (incertezza nell'istanziazione semantica e incertezza del percorso strutturale) e perdita di precisione (incertezza nel confronto probatorio). Per affrontare queste sfide, formalizziamo il compito di recupero come il problema del Recupero del Sottografo Informativo Ottimale (Optimal Informative Subgraph Retrieval - OISR) – una variante dell'Albero di Steiner di Gruppo – e dimostriamo che è NP-difficile e APX-difficile. Proponiamo BubbleRAG, una pipeline senza fase di addestramento (training-free) che ottimizza sistematicamente sia il richiamo che la precisione attraverso il raggruppamento di ancore semantiche, l'espansione euristica a bolla per scoprire grafi di evidenza candidati (Candidate Evidence Graphs - CEGs), il ranking composito e l'espansione consapevole del ragionamento (reasoning-aware). Esperimenti su benchmark di QA multi-hop dimostrano che BubbleRAG raggiunge risultati all'avanguardia, superando baseline solide sia in F1 che in accuratezza, rimanendo al contempo plug-and-play.

English

Large Language Models (LLMs) exhibit hallucinations in knowledge-intensive tasks. Graph-based retrieval augmented generation (RAG) has emerged as a promising solution, yet existing approaches suffer from fundamental recall and precision limitations when operating over black-box knowledge graphs -- graphs whose schema and structure are unknown in advance. We identify three core challenges that cause recall loss (semantic instantiation uncertainty and structural path uncertainty) and precision loss (evidential comparison uncertainty). To address these challenges, we formalize the retrieval task as the Optimal Informative Subgraph Retrieval (OISR) problem -- a variant of Group Steiner Tree -- and prove it to be NP-hard and APX-hard. We propose BubbleRAG, a training-free pipeline that systematically optimizes for both recall and precision through semantic anchor grouping, heuristic bubble expansion to discover candidate evidence graphs (CEGs), composite ranking, and reasoning-aware expansion. Experiments on multi-hop QA benchmarks demonstrate that BubbleRAG achieves state-of-the-art results, outperforming strong baselines in both F1 and accuracy while remaining plug-and-play.

BubbleRAG: Generazione Aumentata dal Recupero Basata su Evidenze per Grafi di Conoscenza Black-Box

BubbleRAG: Evidence-Driven Retrieval-Augmented Generation for Black-Box Knowledge Graphs

Abstract

Support