ConfQA: 확신이 있을 때만 답변하세요
ConfQA: Answer Only If You Are Confident
June 8, 2025
저자: Yin Huang, Yifan Ethan Xu, Kai Sun, Vera Yan, Alicia Sun, Haidar Khan, Jimmy Nguyen, Mohammad Kachuee, Zhaojiang Lin, Yue Liu, Aaron Colak, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
cs.AI
초록
대형 언어 모델(LLM)이 사실적 진술을 허구로 만들어내지 않도록 가르칠 수 있을까? 본 논문에서는 ConfQA라는 미세 조정 전략을 제시하며, 이를 통해 다수의 사실성 벤치마크에서 허구 생성률을 20-40%에서 5% 미만으로 감소시킬 수 있음을 보여준다. 핵심 아이디어는 간단하다: LLM이 질문에 올바르게 답변할 경우, 해당 답변을 계속하도록 학습시키고, 그렇지 않을 경우 "확실하지 않습니다"라고 인정하도록 학습시킨다. 그러나 이 학습이 매우 효과적이도록 만드는 두 가지 핵심 요소가 있다. 첫째, "확신할 때만 답변하라"는 완화 프롬프트를 도입하여 행동을 명시적으로 유도하며, 이를 사용하지 않을 경우 허구 생성률은 15%-25%로 높게 유지된다. 둘째, 지식 그래프에서 추출한 단순한 사실적 진술, 특히 속성 값을 활용하여 LLM이 자신감을 조정하도록 돕고, 이를 통해 도메인과 질문 유형에 걸쳐 견고한 일반화를 달성한다. 이러한 통찰을 바탕으로, 우리는 ConfQA의 자신감을 기반으로 내부적으로 파라미터화된 신경 지식과 외부적으로 기록된 상징적 지식 간의 원활한 선택을 가능하게 하는 Dual Neural Knowledge 프레임워크를 제안한다. 이 프레임워크는 잠재적 정확도를 95% 이상으로 향상시키는 동시에 불필요한 외부 검색을 30% 이상 줄일 수 있다.
English
Can we teach Large Language Models (LLMs) to refrain from hallucinating
factual statements? In this paper we present a fine-tuning strategy that we
call ConfQA, which can reduce hallucination rate from 20-40% to under 5% across
multiple factuality benchmarks. The core idea is simple: when the LLM answers a
question correctly, it is trained to continue with the answer; otherwise, it is
trained to admit "I am unsure". But there are two key factors that make the
training highly effective. First, we introduce a dampening prompt "answer only
if you are confident" to explicitly guide the behavior, without which
hallucination remains high as 15%-25%. Second, we leverage simple factual
statements, specifically attribute values from knowledge graphs, to help LLMs
calibrate the confidence, resulting in robust generalization across domains and
question types. Building on this insight, we propose the Dual Neural Knowledge
framework, which seamlessly select between internally parameterized neural
knowledge and externally recorded symbolic knowledge based on ConfQA's
confidence. The framework enables potential accuracy gains to beyond 95%, while
reducing unnecessary external retrievals by over 30%.