BubbleRAG : Génération Augmentée par Récupération Pilotée par les Preuves pour les Graphes de Connaissances en Boîte Noire

Résumé

Les grands modèles de langage (LLM) présentent des hallucinations dans les tâches nécessitant des connaissances approfondies. La génération augmentée par récupération basée sur les graphes (RAG) est apparue comme une solution prometteuse, mais les approches existantes souffrent de limitations fondamentales de rappel et de précision lorsqu'elles opèrent sur des graphes de connaissances boîte noire – des graphes dont le schéma et la structure sont inconnus à l'avance. Nous identifions trois défis principaux causant une perte de rappel (incertitude d'instanciation sémantique et incertitude des chemins structurels) et une perte de précision (incertitude de comparaison probante). Pour relever ces défis, nous formalisons la tâche de récupération comme le problème de Récupération du Sous-Graphe Informatif Optimal (OISR) – une variante de l'Arbre de Steiner de groupe – et prouvons qu'il est NP-difficile et APX-difficile. Nous proposons BubbleRAG, un pipeline sans entraînement qui optimise systématiquement le rappel et la précision grâce au regroupement d'ancres sémantiques, à l'expansion heuristique en bulles pour découvrir des graphes de preuves candidats (CEG), au classement composite et à l'expansion sensible au raisonnement. Les expériences sur des benchmarks de questions-réponses multi-sauts démontrent que BubbleRAG obtient des résultats de pointe, surpassant les bases de référence solides à la fois en F1 et en exactitude tout en restant prêt à l'emploi.

English

Large Language Models (LLMs) exhibit hallucinations in knowledge-intensive tasks. Graph-based retrieval augmented generation (RAG) has emerged as a promising solution, yet existing approaches suffer from fundamental recall and precision limitations when operating over black-box knowledge graphs -- graphs whose schema and structure are unknown in advance. We identify three core challenges that cause recall loss (semantic instantiation uncertainty and structural path uncertainty) and precision loss (evidential comparison uncertainty). To address these challenges, we formalize the retrieval task as the Optimal Informative Subgraph Retrieval (OISR) problem -- a variant of Group Steiner Tree -- and prove it to be NP-hard and APX-hard. We propose BubbleRAG, a training-free pipeline that systematically optimizes for both recall and precision through semantic anchor grouping, heuristic bubble expansion to discover candidate evidence graphs (CEGs), composite ranking, and reasoning-aware expansion. Experiments on multi-hop QA benchmarks demonstrate that BubbleRAG achieves state-of-the-art results, outperforming strong baselines in both F1 and accuracy while remaining plug-and-play.

BubbleRAG : Génération Augmentée par Récupération Pilotée par les Preuves pour les Graphes de Connaissances en Boîte Noire

BubbleRAG: Evidence-Driven Retrieval-Augmented Generation for Black-Box Knowledge Graphs

Résumé

Support