QuCo-RAG: Cuantificación de la Incertidumbre del Corpus de Pre-entrenamiento para la Generación Aumentada por Recuperación Dinámica
QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation
December 22, 2025
Autores: Dehai Min, Kailin Zhang, Tongtong Wu, Lu Cheng
cs.AI
Resumen
La Generación Aumentada por Recuperación Dinámica determina de forma adaptativa cuándo recuperar información durante la generación para mitigar las alucinaciones en los modelos de lenguaje grandes (LLM). Sin embargo, los métodos existentes se basan en señales internas del modelo (por ejemplo, logits, entropía), que son fundamentalmente poco fiables porque los LLM suelen estar mal calibrados y a menudo muestran una alta confianza en salidas erróneas. Proponemos QuCo-RAG, que cambia de la confianza subjetiva a estadísticas objetivas calculadas a partir de datos de pre-entrenamiento. Nuestro método cuantifica la incertidumbre en dos etapas: (1) antes de la generación, identificamos entidades de baja frecuencia que indican lagunas de conocimiento de cola larga; (2) durante la generación, verificamos la co-ocurrencia de entidades en el corpus de pre-entrenamiento, donde una co-ocurrencia cero suele señalar riesgo de alucinación. Ambas etapas aprovechan Infini-gram para consultas con latencia de milisegundos sobre 4 billones de tokens, activando la recuperación cuando la incertidumbre es alta. Los experimentos en benchmarks de preguntas y respuestas multi-salto muestran que QuCo-RAG logra ganancias de EM de 5 a 12 puntos sobre los baselines más avanzados con modelos OLMo-2, y se transfiere efectivamente a modelos con datos de pre-entrenamiento no divulgados (Llama, Qwen, GPT), mejorando la EM hasta en 14 puntos. La generalización de dominio en preguntas y respuestas biomédicas valida aún más la robustez de nuestro paradigma. Estos resultados establecen la verificación basada en corpus como un paradigma dinámico para RAG, fundamentado y prácticamente independiente del modelo. Nuestro código está disponible públicamente en https://github.com/ZhishanQ/QuCo-RAG.
English
Dynamic Retrieval-Augmented Generation adaptively determines when to retrieve during generation to mitigate hallucinations in large language models (LLMs). However, existing methods rely on model-internal signals (e.g., logits, entropy), which are fundamentally unreliable because LLMs are typically ill-calibrated and often exhibit high confidence in erroneous outputs. We propose QuCo-RAG, which shifts from subjective confidence to objective statistics computed from pre-training data. Our method quantifies uncertainty through two stages: (1) before generation, we identify low-frequency entities indicating long-tail knowledge gaps; (2) during generation, we verify entity co-occurrence in the pre-training corpus, where zero co-occurrence often signals hallucination risk. Both stages leverage Infini-gram for millisecond-latency queries over 4 trillion tokens, triggering retrieval when uncertainty is high. Experiments on multi-hop QA benchmarks show QuCo-RAG achieves EM gains of 5--12 points over state-of-the-art baselines with OLMo-2 models, and transfers effectively to models with undisclosed pre-training data (Llama, Qwen, GPT), improving EM by up to 14 points. Domain generalization on biomedical QA further validates the robustness of our paradigm. These results establish corpus-grounded verification as a principled, practically model-agnostic paradigm for dynamic RAG. Our code is publicly available at https://github.com/ZhishanQ/QuCo-RAG.