ChatPaper.aiChatPaper

QuCo-RAG: Quantificazione dell'Incertezza dal Corpus di Pre-addestramento per la Generazione Aumentata Dinamica con Recupero

QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

December 22, 2025
Autori: Dehai Min, Kailin Zhang, Tongtong Wu, Lu Cheng
cs.AI

Abstract

La Generazione Aumentata con Recupero Dinamico determina in modo adattivo quando effettuare il recupero durante la generazione per mitigare le allucinazioni nei grandi modelli linguistici (LLM). Tuttavia, i metodi esistenti si basano su segnali interni al modello (ad es., logit, entropia), che sono fondamentalmente inaffidabili poiché gli LLM sono tipicamente mal calibrati e spesso mostrano elevata confidenza in output errati. Proponiamo QuCo-RAG, che passa dalla confidenza soggettiva a statistiche oggettive calcolate dai dati di pre-addestramento. Il nostro metodo quantifica l'incertezza attraverso due fasi: (1) prima della generazione, identifichiamo entità a bassa frequenza che indicano lacune nella conoscenza di coda lunga; (2) durante la generazione, verifichiamo la co-occorrenza delle entità nel corpus di pre-addestramento, dove una co-occorrenza zero segnala spesso un rischio di allucinazione. Entrambe le fasi sfruttano Infini-gram per query con latenza di millisecondi su 4 trilioni di token, attivando il recupero quando l'incertezza è elevata. Esperimenti su benchmark di QA multi-hop mostrano che QuCo-RAG ottiene guadagni in EM di 5-12 punti rispetto ai baseline state-of-the-art con modelli OLMo-2 e si trasferisce efficacemente a modelli con dati di pre-addestramento non divulgati (Llama, Qwen, GPT), migliorando l'EM fino a 14 punti. La generalizzazione di dominio su QA biomedico convalida ulteriormente la robustezza del nostro paradigma. Questi risultati stabiliscono la verifica basata sul corpus come un paradigma dinamico per RAG, fondato su principi e praticamente agnostico rispetto al modello. Il nostro codice è pubblicamente disponibile all'indirizzo https://github.com/ZhishanQ/QuCo-RAG.
English
Dynamic Retrieval-Augmented Generation adaptively determines when to retrieve during generation to mitigate hallucinations in large language models (LLMs). However, existing methods rely on model-internal signals (e.g., logits, entropy), which are fundamentally unreliable because LLMs are typically ill-calibrated and often exhibit high confidence in erroneous outputs. We propose QuCo-RAG, which shifts from subjective confidence to objective statistics computed from pre-training data. Our method quantifies uncertainty through two stages: (1) before generation, we identify low-frequency entities indicating long-tail knowledge gaps; (2) during generation, we verify entity co-occurrence in the pre-training corpus, where zero co-occurrence often signals hallucination risk. Both stages leverage Infini-gram for millisecond-latency queries over 4 trillion tokens, triggering retrieval when uncertainty is high. Experiments on multi-hop QA benchmarks show QuCo-RAG achieves EM gains of 5--12 points over state-of-the-art baselines with OLMo-2 models, and transfers effectively to models with undisclosed pre-training data (Llama, Qwen, GPT), improving EM by up to 14 points. Domain generalization on biomedical QA further validates the robustness of our paradigm. These results establish corpus-grounded verification as a principled, practically model-agnostic paradigm for dynamic RAG. Our code is publicly available at https://github.com/ZhishanQ/QuCo-RAG.
PDF252December 24, 2025