ChatPaper.aiChatPaper

QuCo-RAG: Quantifizierung von Unsicherheiten aus dem Vortrainierungskorpus für dynamische abrufverstärkte Generierung

QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

December 22, 2025
papers.authors: Dehai Min, Kailin Zhang, Tongtong Wu, Lu Cheng
cs.AI

papers.abstract

Dynamic Retrieval-Augmented Generation bestimmt adaptiv, wann während der Generierung eine Abfrage durchgeführt werden muss, um Halluzinationen in großen Sprachmodellen (LLMs) zu reduzieren. Bisherige Methoden stützen sich jedoch auf modellinterne Signale (z.B. Logits, Entropie), die grundsätzlich unzuverlässig sind, da LLMs typischerweise schlecht kalibriert sind und oft hohes Vertrauen in fehlerhafte Ausgaben zeigen. Wir schlagen QuCo-RAG vor, das von subjektivem Vertrauen zu objektiven Statistiken übergeht, die aus Vortrainingsdaten berechnet werden. Unsere Methode quantifiziert Unsicherheit in zwei Stufen: (1) Vor der Generierung identifizieren wir niedrigfrequente Entitäten, die Wissenslücken im Long-Tail-Bereich anzeigen; (2) Während der Generierung überprüfen wir die gemeinsame Auftretenshäufigkeit von Entitäten im Vortrainingskorpus, wobei kein gemeinsames Auftreten oft auf ein Halluzinationsrisiko hindeutet. Beide Stufen nutzen Infini-gram für Abfragen mit Millisekunden-Latenz über 4 Billionen Tokens und lösen eine Abfrage aus, wenn die Unsicherheit hoch ist. Experimente auf Multi-Hop-QA-Benchmarks zeigen, dass QuCo-RAG mit OLMo-2-Modellen gegenüber state-of-the-art Baseline-Methoden EM-Gewinne von 5–12 Punkten erzielt und effektiv auf Modelle mit nicht-offengelegten Vortrainingsdaten (Llama, Qwen, GPT) überträgt, wobei die EM um bis zu 14 Punkte verbessert wird. Domänenübergreifende Generalisierung auf biomedizinische QA validiert weiter die Robustheit unseres Paradigmas. Diese Ergebnisse etablieren korpusbasierte Verifikation als ein prinzipielles, praktisch modellagnostisches Paradigma für dynamisches RAG. Unser Code ist öffentlich verfügbar unter https://github.com/ZhishanQ/QuCo-RAG.
English
Dynamic Retrieval-Augmented Generation adaptively determines when to retrieve during generation to mitigate hallucinations in large language models (LLMs). However, existing methods rely on model-internal signals (e.g., logits, entropy), which are fundamentally unreliable because LLMs are typically ill-calibrated and often exhibit high confidence in erroneous outputs. We propose QuCo-RAG, which shifts from subjective confidence to objective statistics computed from pre-training data. Our method quantifies uncertainty through two stages: (1) before generation, we identify low-frequency entities indicating long-tail knowledge gaps; (2) during generation, we verify entity co-occurrence in the pre-training corpus, where zero co-occurrence often signals hallucination risk. Both stages leverage Infini-gram for millisecond-latency queries over 4 trillion tokens, triggering retrieval when uncertainty is high. Experiments on multi-hop QA benchmarks show QuCo-RAG achieves EM gains of 5--12 points over state-of-the-art baselines with OLMo-2 models, and transfers effectively to models with undisclosed pre-training data (Llama, Qwen, GPT), improving EM by up to 14 points. Domain generalization on biomedical QA further validates the robustness of our paradigm. These results establish corpus-grounded verification as a principled, practically model-agnostic paradigm for dynamic RAG. Our code is publicly available at https://github.com/ZhishanQ/QuCo-RAG.
PDF252December 24, 2025