Объяснение источников неопределенности в автоматизированной проверке фактов

Аннотация

Понимание источников неопределенности модели в отношении ее прогнозов имеет решающее значение для эффективного взаимодействия человека и ИИ. Предыдущие работы предлагали использовать числовую неопределенность или оговорки ("Я не уверен, но..."), которые не объясняют неопределенность, возникающую из-за противоречивых данных, оставляя пользователей неспособными разрешить разногласия или полагаться на выводы. Мы представляем CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations) — первую структуру для генерации объяснений неопределенности модели на естественном языке, которая (i) выявляет отношения между фрагментами текста, раскрывающие конфликты или согласованность между утверждениями и доказательствами, которые вызывают неопределенность прогнозов модели, и (ii) генерирует объяснения с помощью промптов и управления вниманием, вербализирующих эти ключевые взаимодействия. На трех языковых моделях и двух наборах данных для проверки фактов мы показываем, что CLUE создает объяснения, которые более точно отражают неопределенность модели и более согласованы с решениями по проверке фактов, чем запросы на объяснения неопределенности без учета взаимодействия фрагментов. Человеческие оценщики считают наши объяснения более полезными, информативными, менее избыточными и более логически согласованными с входными данными, чем этот базовый подход. CLUE не требует тонкой настройки или изменений архитектуры, что делает его готовым к использованию для любой "белой" языковой модели. Явно связывая неопределенность с конфликтами доказательств, она предлагает практическую поддержку для проверки фактов и легко обобщается на другие задачи, требующие рассуждений над сложной информацией.

English

Understanding sources of a model's uncertainty regarding its predictions is crucial for effective human-AI collaboration. Prior work proposes using numerical uncertainty or hedges ("I'm not sure, but ..."), which do not explain uncertainty that arises from conflicting evidence, leaving users unable to resolve disagreements or rely on the output. We introduce CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations), the first framework to generate natural language explanations of model uncertainty by (i) identifying relationships between spans of text that expose claim-evidence or inter-evidence conflicts and agreements that drive the model's predictive uncertainty in an unsupervised way, and (ii) generating explanations via prompting and attention steering that verbalize these critical interactions. Across three language models and two fact-checking datasets, we show that CLUE produces explanations that are more faithful to the model's uncertainty and more consistent with fact-checking decisions than prompting for uncertainty explanations without span-interaction guidance. Human evaluators judge our explanations to be more helpful, more informative, less redundant, and more logically consistent with the input than this baseline. CLUE requires no fine-tuning or architectural changes, making it plug-and-play for any white-box language model. By explicitly linking uncertainty to evidence conflicts, it offers practical support for fact-checking and generalises readily to other tasks that require reasoning over complex information.

Объяснение источников неопределенности в автоматизированной проверке фактов

Explaining Sources of Uncertainty in Automated Fact-Checking

Аннотация

Support