QuCo-RAG : Quantification de l'incertitude issue du corpus de pré-entraînement pour la génération augmentée par récupération dynamique
QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation
December 22, 2025
papers.authors: Dehai Min, Kailin Zhang, Tongtong Wu, Lu Cheng
cs.AI
papers.abstract
La Génération Augmentée par Récupération Dynamique (Dynamic RAG) détermine de manière adaptative le moment de récupérer des informations pendant la génération pour atténuer les hallucinations dans les grands modèles de langage (LLM). Cependant, les méthodes existantes s'appuient sur des signaux internes au modèle (par exemple, les logits, l'entropie), qui sont fondamentalement peu fiables car les LLM sont généralement mal calibrés et présentent souvent une confiance élevée dans des sorties erronées. Nous proposons QuCo-RAG, qui passe d'une confiance subjective à des statistiques objectives calculées à partir des données de pré-entraînement. Notre méthode quantifie l'incertitude en deux étapes : (1) avant la génération, nous identifions les entités à faible fréquence indiquant des lacunes de connaissances dans la "long tail" ; (2) pendant la génération, nous vérifions la co-occurrence des entités dans le corpus de pré-entraînement, où une co-occurrence nulle signale souvent un risque d'hallucination. Les deux étapes exploitent Infini-gram pour des requêtes à latence milliseconde sur 4 000 milliards de tokens, déclenchant la récupération lorsque l'incertitude est élevée. Les expériences sur des benchmarks de questions-réponses multi-sauts montrent que QuCo-RAG obtient des gains de score EM de 5 à 12 points par rapport aux meilleures méthodes de référence avec les modèles OLMo-2, et se transpose efficacement à des modèles avec des données de pré-entraînement non divulguées (Llama, Qwen, GPT), améliorant le score EM jusqu'à 14 points. La généralisation au domaine biomédical valide en outre la robustesse de notre paradigme. Ces résultats établissent la vérification ancrée dans le corpus comme un paradigme dynamique de RAG, fondé et pratiquement agnostique au modèle. Notre code est disponible publiquement à l'adresse https://github.com/ZhishanQ/QuCo-RAG.
English
Dynamic Retrieval-Augmented Generation adaptively determines when to retrieve during generation to mitigate hallucinations in large language models (LLMs). However, existing methods rely on model-internal signals (e.g., logits, entropy), which are fundamentally unreliable because LLMs are typically ill-calibrated and often exhibit high confidence in erroneous outputs. We propose QuCo-RAG, which shifts from subjective confidence to objective statistics computed from pre-training data. Our method quantifies uncertainty through two stages: (1) before generation, we identify low-frequency entities indicating long-tail knowledge gaps; (2) during generation, we verify entity co-occurrence in the pre-training corpus, where zero co-occurrence often signals hallucination risk. Both stages leverage Infini-gram for millisecond-latency queries over 4 trillion tokens, triggering retrieval when uncertainty is high. Experiments on multi-hop QA benchmarks show QuCo-RAG achieves EM gains of 5--12 points over state-of-the-art baselines with OLMo-2 models, and transfers effectively to models with undisclosed pre-training data (Llama, Qwen, GPT), improving EM by up to 14 points. Domain generalization on biomedical QA further validates the robustness of our paradigm. These results establish corpus-grounded verification as a principled, practically model-agnostic paradigm for dynamic RAG. Our code is publicly available at https://github.com/ZhishanQ/QuCo-RAG.