ChatPaper.aiChatPaper

QuCo-RAG: Kwantificering van Onzekerheid uit het Pre-trainingscorpus voor Dynamische Retrieval-Augmented Generation

QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

December 22, 2025
Auteurs: Dehai Min, Kailin Zhang, Tongtong Wu, Lu Cheng
cs.AI

Samenvatting

Dynamische Retrieval-Augmented Generation bepaalt adaptief wanneer er tijdens het genereren moet worden opgehaald om hallucinaties in grote taalmodellen (LLM's) te verminderen. Bestaande methoden vertrouwen echter op modelinterne signalen (bijvoorbeeld logits, entropie), die fundamenteel onbetrouwbaar zijn omdat LLM's doorgaans slecht gekalibreerd zijn en vaak een hoog vertrouwen tonen in foutieve uitvoer. Wij stellen QuCo-RAG voor, dat verschuift van subjectief vertrouwen naar objectieve statistieken berekend uit pre-trainingsdata. Onze methode kwantificeert onzekerheid in twee fasen: (1) vóór generatie identificeren we laagfrequente entiteiten die wijzen op kennislacunes in de lange staart; (2) tijdens generatie verifiëren we de co-voorkomen van entiteiten in het pre-trainingscorpus, waarbij nul co-voorkomen vaak een hallucinatierisico signaleert. Beide fasen benutten Infini-gram voor milliseconde-latentie queries over 4 biljoen tokens, waarbij retrieval wordt geactiveerd bij hoge onzekerheid. Experimenten op multi-hop QA benchmarks tonen aan dat QuCo-RAG EM-winst behaalt van 5–12 punten ten opzichte van state-of-the-art baselines met OLMo-2-modellen, en effectief transferleert naar modellen met niet-openbare pre-trainingsdata (Llama, Qwen, GPT), met EM-verbeteringen tot 14 punten. Domeingeneralizatie op biomedische QA valideert verder de robuustheid van ons paradigma. Deze resultaten vestigen corpusgebaseerde verificatie als een principieel, praktisch modelagnostisch paradigma voor dynamische RAG. Onze code is openbaar beschikbaar op https://github.com/ZhishanQ/QuCo-RAG.
English
Dynamic Retrieval-Augmented Generation adaptively determines when to retrieve during generation to mitigate hallucinations in large language models (LLMs). However, existing methods rely on model-internal signals (e.g., logits, entropy), which are fundamentally unreliable because LLMs are typically ill-calibrated and often exhibit high confidence in erroneous outputs. We propose QuCo-RAG, which shifts from subjective confidence to objective statistics computed from pre-training data. Our method quantifies uncertainty through two stages: (1) before generation, we identify low-frequency entities indicating long-tail knowledge gaps; (2) during generation, we verify entity co-occurrence in the pre-training corpus, where zero co-occurrence often signals hallucination risk. Both stages leverage Infini-gram for millisecond-latency queries over 4 trillion tokens, triggering retrieval when uncertainty is high. Experiments on multi-hop QA benchmarks show QuCo-RAG achieves EM gains of 5--12 points over state-of-the-art baselines with OLMo-2 models, and transfers effectively to models with undisclosed pre-training data (Llama, Qwen, GPT), improving EM by up to 14 points. Domain generalization on biomedical QA further validates the robustness of our paradigm. These results establish corpus-grounded verification as a principled, practically model-agnostic paradigm for dynamic RAG. Our code is publicly available at https://github.com/ZhishanQ/QuCo-RAG.
PDF252December 24, 2025