ConfQA: Responde solo si estás seguro.
ConfQA: Answer Only If You Are Confident
June 8, 2025
Autores: Yin Huang, Yifan Ethan Xu, Kai Sun, Vera Yan, Alicia Sun, Haidar Khan, Jimmy Nguyen, Mohammad Kachuee, Zhaojiang Lin, Yue Liu, Aaron Colak, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
cs.AI
Resumen
¿Podemos enseñar a los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) a evitar generar afirmaciones factuales incorrectas? En este artículo presentamos una estrategia de ajuste fino que denominamos ConfQA, la cual puede reducir la tasa de alucinación de un 20-40% a menos del 5% en múltiples benchmarks de factualidad. La idea central es simple: cuando el LLM responde una pregunta correctamente, se entrena para continuar con la respuesta; de lo contrario, se entrena para admitir "No estoy seguro". Sin embargo, hay dos factores clave que hacen que este entrenamiento sea altamente efectivo. En primer lugar, introducimos una indicación de amortiguación "responde solo si estás seguro" para guiar explícitamente el comportamiento, sin la cual la alucinación se mantiene en un 15%-25%. En segundo lugar, aprovechamos afirmaciones factuales simples, específicamente valores de atributos de grafos de conocimiento, para ayudar a los LLMs a calibrar la confianza, lo que resulta en una generalización robusta entre dominios y tipos de preguntas. Basándonos en esta idea, proponemos el marco de Conocimiento Neural Dual, que selecciona de manera fluida entre el conocimiento neural parametrizado internamente y el conocimiento simbólico registrado externamente, según la confianza de ConfQA. Este marco permite alcanzar ganancias potenciales en precisión de más del 95%, mientras reduce las recuperaciones externas innecesarias en más del 30%.
English
Can we teach Large Language Models (LLMs) to refrain from hallucinating
factual statements? In this paper we present a fine-tuning strategy that we
call ConfQA, which can reduce hallucination rate from 20-40% to under 5% across
multiple factuality benchmarks. The core idea is simple: when the LLM answers a
question correctly, it is trained to continue with the answer; otherwise, it is
trained to admit "I am unsure". But there are two key factors that make the
training highly effective. First, we introduce a dampening prompt "answer only
if you are confident" to explicitly guide the behavior, without which
hallucination remains high as 15%-25%. Second, we leverage simple factual
statements, specifically attribute values from knowledge graphs, to help LLMs
calibrate the confidence, resulting in robust generalization across domains and
question types. Building on this insight, we propose the Dual Neural Knowledge
framework, which seamlessly select between internally parameterized neural
knowledge and externally recorded symbolic knowledge based on ConfQA's
confidence. The framework enables potential accuracy gains to beyond 95%, while
reducing unnecessary external retrievals by over 30%.