ConfQA: Antwoord Alleen Als Je Zeker Bent
ConfQA: Answer Only If You Are Confident
June 8, 2025
Auteurs: Yin Huang, Yifan Ethan Xu, Kai Sun, Vera Yan, Alicia Sun, Haidar Khan, Jimmy Nguyen, Mohammad Kachuee, Zhaojiang Lin, Yue Liu, Aaron Colak, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
cs.AI
Samenvatting
Kunnen we grote taalmodellen (LLMs) leren om af te zien van het hallucineren van feitelijke uitspraken? In dit artikel presenteren we een fine-tuningstrategie die we ConfQA noemen, waarmee het hallucinatiepercentage kan worden teruggebracht van 20-40% naar minder dan 5% over meerdere feitelijkheidsbenchmarks. De kernidee is eenvoudig: wanneer het LLM een vraag correct beantwoordt, wordt het getraind om door te gaan met het antwoord; anders wordt het getraind om te zeggen "Ik weet het niet zeker". Maar er zijn twee sleutelfactoren die de training zeer effectief maken. Ten eerste introduceren we een dempende prompt "antwoord alleen als je zeker bent" om het gedrag expliciet te sturen, zonder welke het hallucinatiepercentage hoog blijft, namelijk 15%-25%. Ten tweede maken we gebruik van eenvoudige feitelijke uitspraken, specifiek attribuutwaarden uit kennisgrafieken, om LLMs te helpen het vertrouwen te kalibreren, wat resulteert in robuuste generalisatie over domeinen en vraagtypen. Op basis van dit inzicht stellen we het Dual Neural Knowledge-framework voor, dat naadloos schakelt tussen intern geparametriseerde neurale kennis en extern vastgelegde symbolische kennis op basis van het vertrouwen van ConfQA. Het framework maakt potentiële nauwkeurigheidsverbeteringen mogelijk tot meer dan 95%, terwijl het onnodige externe retrievals met meer dan 30% vermindert.
English
Can we teach Large Language Models (LLMs) to refrain from hallucinating
factual statements? In this paper we present a fine-tuning strategy that we
call ConfQA, which can reduce hallucination rate from 20-40% to under 5% across
multiple factuality benchmarks. The core idea is simple: when the LLM answers a
question correctly, it is trained to continue with the answer; otherwise, it is
trained to admit "I am unsure". But there are two key factors that make the
training highly effective. First, we introduce a dampening prompt "answer only
if you are confident" to explicitly guide the behavior, without which
hallucination remains high as 15%-25%. Second, we leverage simple factual
statements, specifically attribute values from knowledge graphs, to help LLMs
calibrate the confidence, resulting in robust generalization across domains and
question types. Building on this insight, we propose the Dual Neural Knowledge
framework, which seamlessly select between internally parameterized neural
knowledge and externally recorded symbolic knowledge based on ConfQA's
confidence. The framework enables potential accuracy gains to beyond 95%, while
reducing unnecessary external retrievals by over 30%.