QuCo-RAG: 동적 검색 증강 생성을 위한 사전 학습 코퍼스 불확실성 정량화
QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation
December 22, 2025
저자: Dehai Min, Kailin Zhang, Tongtong Wu, Lu Cheng
cs.AI
초록
동적 검색 증강 생성은 대규모 언어 모델(LLM)의 환각 현상을 완화하기 위해 생성 과정 중 언제 검색을 수행할지 적응적으로 결정합니다. 그러나 기존 방법은 모델 내부 신호(예: 로짓, 엔트로피)에 의존하는데, LLM은 일반적으로 보정이 잘되지 않고 잘못된 출력에 대해 높은 확신을 보이는 경우가 많기 때문에 이러한 신호는 근본적으로 신뢰할 수 없습니다. 우리는 주관적 확신에서 사전 학습 데이터로 계산된 객관적 통계로 전환하는 QuCo-RAG를 제안합니다. 우리의 방법은 두 단계를 통해 불확실성을 정량화합니다: (1) 생성 전, 장기꼬리 지식 격차를 나타내는 저빈도 개체를 식별합니다; (2) 생성 중, 사전 학습 코퍼스 내 개체 동시 발생을 검증하며, 동시 발생이 전혀 없는 경우 종종 환각 위험 신호로 작용합니다. 두 단계 모두 4조 토큰에 대해 밀리초 수준의 지연 시간으로 질의가 가능한 Infini-gram을 활용하여 불확실성이 높을 때 검색을 트리거합니다. 다중 홉 질의응답 벤치마크에서의 실험 결과, QuCo-RAG는 OLMo-2 모델을 사용한 최첨단 기준선 대비 5-12점의 EM(Exact Match) 향상을 달성했으며, 사전 학습 데이터가 공개되지 않은 모델(Llama, Qwen, GPT)에도 효과적으로 전이되어 최대 14점까지 EM을 향상시켰습니다. 생의학 QA에 대한 도메인 일반화 실험은 우리 패러다임의 강건성을 추가로 입증합니다. 이러한 결과는 코퍼스 기반 검증이 동적 RAG를 위한 원칙적이고 실질적으로 모델에 구애받지 않는 패러다임임을 입증합니다. 우리의 코드는 https://github.com/ZhishanQ/QuCo-RAG 에서 공개적으로 이용 가능합니다.
English
Dynamic Retrieval-Augmented Generation adaptively determines when to retrieve during generation to mitigate hallucinations in large language models (LLMs). However, existing methods rely on model-internal signals (e.g., logits, entropy), which are fundamentally unreliable because LLMs are typically ill-calibrated and often exhibit high confidence in erroneous outputs. We propose QuCo-RAG, which shifts from subjective confidence to objective statistics computed from pre-training data. Our method quantifies uncertainty through two stages: (1) before generation, we identify low-frequency entities indicating long-tail knowledge gaps; (2) during generation, we verify entity co-occurrence in the pre-training corpus, where zero co-occurrence often signals hallucination risk. Both stages leverage Infini-gram for millisecond-latency queries over 4 trillion tokens, triggering retrieval when uncertainty is high. Experiments on multi-hop QA benchmarks show QuCo-RAG achieves EM gains of 5--12 points over state-of-the-art baselines with OLMo-2 models, and transfers effectively to models with undisclosed pre-training data (Llama, Qwen, GPT), improving EM by up to 14 points. Domain generalization on biomedical QA further validates the robustness of our paradigm. These results establish corpus-grounded verification as a principled, practically model-agnostic paradigm for dynamic RAG. Our code is publicly available at https://github.com/ZhishanQ/QuCo-RAG.