QuCo-RAG: Quantificação da Incerteza Proveniente do Corpus de Pré-treinamento para Geração Aumentada por Recuperação Dinâmica

Resumo

A Geração Aumentada por Recuperação Dinâmica determina adaptativamente quando recuperar informações durante a geração para mitigar alucinações em modelos de linguagem grande (LLMs). No entanto, os métodos existentes dependem de sinais internos do modelo (por exemplo, logits, entropia), que são fundamentalmente não confiáveis porque os LLMs são tipicamente mal calibrados e frequentemente exibem alta confiança em saídas errôneas. Propomos o QuCo-RAG, que muda da confiança subjetiva para estatísticas objetivas calculadas a partir de dados de pré-treinamento. Nosso método quantifica a incerteza através de dois estágios: (1) antes da geração, identificamos entidades de baixa frequência que indicam lacunas de conhecimento de cauda longa; (2) durante a geração, verificamos a co-ocorrência de entidades no corpus de pré-treinamento, onde a co-ocorrência zero frequentemente sinaliza risco de alucinação. Ambos os estágios utilizam o Infini-gram para consultas de latência de milissegundos em mais de 4 trilhões de tokens, acionando a recuperação quando a incerteza é alta. Experimentos em benchmarks de QA multi-hop mostram que o QuCo-RAG alcança ganhos de EM de 5 a 12 pontos sobre as linhas de base state-of-the-art com modelos OLMo-2, e transfere eficazmente para modelos com dados de pré-treinamento não divulgados (Llama, Qwen, GPT), melhorando a EM em até 14 pontos. A generalização de domínio em QA biomédica valida ainda mais a robustez do nosso paradigma. Esses resultados estabelecem a verificação fundamentada no corpus como um paradigma dinâmico e principado para RAG dinâmico, praticamente agnóstico ao modelo. Nosso código está publicamente disponível em https://github.com/ZhishanQ/QuCo-RAG.

English

Dynamic Retrieval-Augmented Generation adaptively determines when to retrieve during generation to mitigate hallucinations in large language models (LLMs). However, existing methods rely on model-internal signals (e.g., logits, entropy), which are fundamentally unreliable because LLMs are typically ill-calibrated and often exhibit high confidence in erroneous outputs. We propose QuCo-RAG, which shifts from subjective confidence to objective statistics computed from pre-training data. Our method quantifies uncertainty through two stages: (1) before generation, we identify low-frequency entities indicating long-tail knowledge gaps; (2) during generation, we verify entity co-occurrence in the pre-training corpus, where zero co-occurrence often signals hallucination risk. Both stages leverage Infini-gram for millisecond-latency queries over 4 trillion tokens, triggering retrieval when uncertainty is high. Experiments on multi-hop QA benchmarks show QuCo-RAG achieves EM gains of 5--12 points over state-of-the-art baselines with OLMo-2 models, and transfers effectively to models with undisclosed pre-training data (Llama, Qwen, GPT), improving EM by up to 14 points. Domain generalization on biomedical QA further validates the robustness of our paradigm. These results establish corpus-grounded verification as a principled, practically model-agnostic paradigm for dynamic RAG. Our code is publicly available at https://github.com/ZhishanQ/QuCo-RAG.

QuCo-RAG: Quantificação da Incerteza Proveniente do Corpus de Pré-treinamento para Geração Aumentada por Recuperação Dinâmica

QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

Resumo

Support