Het verklaren van bronnen van onzekerheid in geautomatiseerde feitencontrole
Explaining Sources of Uncertainty in Automated Fact-Checking
May 23, 2025
Auteurs: Jingyi Sun, Greta Warren, Irina Shklovski, Isabelle Augenstein
cs.AI
Samenvatting
Het begrijpen van de bronnen van onzekerheid van een model ten aanzien van zijn voorspellingen is cruciaal voor effectieve mens-AI-samenwerking. Eerdere onderzoeken stellen het gebruik van numerieke onzekerheid of terughoudende formuleringen ("Ik weet het niet zeker, maar ...") voor, die echter geen verklaring bieden voor onzekerheid die voortkomt uit tegenstrijdig bewijs, waardoor gebruikers niet in staat zijn om meningsverschillen op te lossen of op de uitvoer te vertrouwen. Wij introduceren CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations), het eerste framework dat natuurlijke taaluitleg genereert over modelonzekerheid door (i) relaties te identificeren tussen tekstfragmenten die claim-bewijs- of interbewijsconflicten en overeenkomsten blootleggen die de voorspellende onzekerheid van het model op een onbewaakte manier sturen, en (ii) uitleg te genereren via prompting en aandachtsturing die deze kritieke interacties verwoorden. Over drie taalmodelen en twee factcheck-datasets tonen we aan dat CLUE uitleg produceert die trouwer is aan de onzekerheid van het model en consistenter met factcheck-beslissingen dan het vragen naar onzekerheidsuitleg zonder begeleiding van fragmentinteracties. Menselijke beoordelaars vinden onze uitleg nuttiger, informatiever, minder redundant en logischer consistent met de invoer dan deze baseline. CLUE vereist geen fine-tuning of architectuurwijzigingen, waardoor het plug-and-play is voor elk white-box taalmodel. Door onzekerheid expliciet te koppelen aan bewijsconflicten, biedt het praktische ondersteuning voor factchecking en generaliseert het gemakkelijk naar andere taken die redeneren over complexe informatie vereisen.
English
Understanding sources of a model's uncertainty regarding its predictions is
crucial for effective human-AI collaboration. Prior work proposes using
numerical uncertainty or hedges ("I'm not sure, but ..."), which do not explain
uncertainty that arises from conflicting evidence, leaving users unable to
resolve disagreements or rely on the output. We introduce CLUE
(Conflict-and-Agreement-aware Language-model Uncertainty Explanations), the
first framework to generate natural language explanations of model uncertainty
by (i) identifying relationships between spans of text that expose
claim-evidence or inter-evidence conflicts and agreements that drive the
model's predictive uncertainty in an unsupervised way, and (ii) generating
explanations via prompting and attention steering that verbalize these critical
interactions. Across three language models and two fact-checking datasets, we
show that CLUE produces explanations that are more faithful to the model's
uncertainty and more consistent with fact-checking decisions than prompting for
uncertainty explanations without span-interaction guidance. Human evaluators
judge our explanations to be more helpful, more informative, less redundant,
and more logically consistent with the input than this baseline. CLUE requires
no fine-tuning or architectural changes, making it plug-and-play for any
white-box language model. By explicitly linking uncertainty to evidence
conflicts, it offers practical support for fact-checking and generalises
readily to other tasks that require reasoning over complex information.