Объяснение источников неопределенности в автоматизированной проверке фактов
Explaining Sources of Uncertainty in Automated Fact-Checking
May 23, 2025
Авторы: Jingyi Sun, Greta Warren, Irina Shklovski, Isabelle Augenstein
cs.AI
Аннотация
Понимание источников неопределенности модели в отношении ее прогнозов имеет решающее значение для эффективного взаимодействия человека и ИИ. Предыдущие работы предлагали использовать числовую неопределенность или оговорки ("Я не уверен, но..."), которые не объясняют неопределенность, возникающую из-за противоречивых данных, оставляя пользователей неспособными разрешить разногласия или полагаться на выводы. Мы представляем CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations) — первую структуру для генерации объяснений неопределенности модели на естественном языке, которая (i) выявляет отношения между фрагментами текста, раскрывающие конфликты или согласованность между утверждениями и доказательствами, которые вызывают неопределенность прогнозов модели, и (ii) генерирует объяснения с помощью промптов и управления вниманием, вербализирующих эти ключевые взаимодействия. На трех языковых моделях и двух наборах данных для проверки фактов мы показываем, что CLUE создает объяснения, которые более точно отражают неопределенность модели и более согласованы с решениями по проверке фактов, чем запросы на объяснения неопределенности без учета взаимодействия фрагментов. Человеческие оценщики считают наши объяснения более полезными, информативными, менее избыточными и более логически согласованными с входными данными, чем этот базовый подход. CLUE не требует тонкой настройки или изменений архитектуры, что делает его готовым к использованию для любой "белой" языковой модели. Явно связывая неопределенность с конфликтами доказательств, она предлагает практическую поддержку для проверки фактов и легко обобщается на другие задачи, требующие рассуждений над сложной информацией.
English
Understanding sources of a model's uncertainty regarding its predictions is
crucial for effective human-AI collaboration. Prior work proposes using
numerical uncertainty or hedges ("I'm not sure, but ..."), which do not explain
uncertainty that arises from conflicting evidence, leaving users unable to
resolve disagreements or rely on the output. We introduce CLUE
(Conflict-and-Agreement-aware Language-model Uncertainty Explanations), the
first framework to generate natural language explanations of model uncertainty
by (i) identifying relationships between spans of text that expose
claim-evidence or inter-evidence conflicts and agreements that drive the
model's predictive uncertainty in an unsupervised way, and (ii) generating
explanations via prompting and attention steering that verbalize these critical
interactions. Across three language models and two fact-checking datasets, we
show that CLUE produces explanations that are more faithful to the model's
uncertainty and more consistent with fact-checking decisions than prompting for
uncertainty explanations without span-interaction guidance. Human evaluators
judge our explanations to be more helpful, more informative, less redundant,
and more logically consistent with the input than this baseline. CLUE requires
no fine-tuning or architectural changes, making it plug-and-play for any
white-box language model. By explicitly linking uncertainty to evidence
conflicts, it offers practical support for fact-checking and generalises
readily to other tasks that require reasoning over complex information.Summary
AI-Generated Summary