ChatPaper.aiChatPaper

ConfQA: Отвечай только если уверен

ConfQA: Answer Only If You Are Confident

June 8, 2025
Авторы: Yin Huang, Yifan Ethan Xu, Kai Sun, Vera Yan, Alicia Sun, Haidar Khan, Jimmy Nguyen, Mohammad Kachuee, Zhaojiang Lin, Yue Liu, Aaron Colak, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
cs.AI

Аннотация

Можем ли мы научить большие языковые модели (LLMs) воздерживаться от генерации вымышленных фактов? В данной статье мы представляем стратегию тонкой настройки, которую называем ConfQA, которая позволяет снизить уровень галлюцинаций с 20-40% до менее 5% на множестве тестов на фактическую точность. Основная идея проста: когда LLM правильно отвечает на вопрос, она обучается продолжать ответ; в противном случае она обучается признавать: "Я не уверен". Однако есть два ключевых фактора, которые делают обучение высокоэффективным. Во-первых, мы вводим сдерживающий запрос "отвечай только если уверен", чтобы явно направлять поведение модели, без которого уровень галлюцинаций остается высоким — 15-25%. Во-вторых, мы используем простые фактические утверждения, а именно значения атрибутов из графов знаний, чтобы помочь LLMs калибровать уверенность, что приводит к устойчивому обобщению в различных областях и типах вопросов. Опираясь на это понимание, мы предлагаем Dual Neural Knowledge framework, который бесшовно выбирает между внутренне параметризованными нейронными знаниями и внешне зафиксированными символическими знаниями на основе уверенности ConfQA. Этот фреймворк позволяет достичь потенциальной точности выше 95%, одновременно сокращая ненужные внешние запросы более чем на 30%.
English
Can we teach Large Language Models (LLMs) to refrain from hallucinating factual statements? In this paper we present a fine-tuning strategy that we call ConfQA, which can reduce hallucination rate from 20-40% to under 5% across multiple factuality benchmarks. The core idea is simple: when the LLM answers a question correctly, it is trained to continue with the answer; otherwise, it is trained to admit "I am unsure". But there are two key factors that make the training highly effective. First, we introduce a dampening prompt "answer only if you are confident" to explicitly guide the behavior, without which hallucination remains high as 15%-25%. Second, we leverage simple factual statements, specifically attribute values from knowledge graphs, to help LLMs calibrate the confidence, resulting in robust generalization across domains and question types. Building on this insight, we propose the Dual Neural Knowledge framework, which seamlessly select between internally parameterized neural knowledge and externally recorded symbolic knowledge based on ConfQA's confidence. The framework enables potential accuracy gains to beyond 95%, while reducing unnecessary external retrievals by over 30%.
PDF92June 10, 2025