ChatPaper.aiChatPaper

Het verklaren van bronnen van onzekerheid in geautomatiseerde feitencontrole

Explaining Sources of Uncertainty in Automated Fact-Checking

May 23, 2025
Auteurs: Jingyi Sun, Greta Warren, Irina Shklovski, Isabelle Augenstein
cs.AI

Samenvatting

Het begrijpen van de bronnen van onzekerheid van een model ten aanzien van zijn voorspellingen is cruciaal voor effectieve mens-AI-samenwerking. Eerdere onderzoeken stellen het gebruik van numerieke onzekerheid of terughoudende formuleringen ("Ik weet het niet zeker, maar ...") voor, die echter geen verklaring bieden voor onzekerheid die voortkomt uit tegenstrijdig bewijs, waardoor gebruikers niet in staat zijn om meningsverschillen op te lossen of op de uitvoer te vertrouwen. Wij introduceren CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations), het eerste framework dat natuurlijke taaluitleg genereert over modelonzekerheid door (i) relaties te identificeren tussen tekstfragmenten die claim-bewijs- of interbewijsconflicten en overeenkomsten blootleggen die de voorspellende onzekerheid van het model op een onbewaakte manier sturen, en (ii) uitleg te genereren via prompting en aandachtsturing die deze kritieke interacties verwoorden. Over drie taalmodelen en twee factcheck-datasets tonen we aan dat CLUE uitleg produceert die trouwer is aan de onzekerheid van het model en consistenter met factcheck-beslissingen dan het vragen naar onzekerheidsuitleg zonder begeleiding van fragmentinteracties. Menselijke beoordelaars vinden onze uitleg nuttiger, informatiever, minder redundant en logischer consistent met de invoer dan deze baseline. CLUE vereist geen fine-tuning of architectuurwijzigingen, waardoor het plug-and-play is voor elk white-box taalmodel. Door onzekerheid expliciet te koppelen aan bewijsconflicten, biedt het praktische ondersteuning voor factchecking en generaliseert het gemakkelijk naar andere taken die redeneren over complexe informatie vereisen.
English
Understanding sources of a model's uncertainty regarding its predictions is crucial for effective human-AI collaboration. Prior work proposes using numerical uncertainty or hedges ("I'm not sure, but ..."), which do not explain uncertainty that arises from conflicting evidence, leaving users unable to resolve disagreements or rely on the output. We introduce CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations), the first framework to generate natural language explanations of model uncertainty by (i) identifying relationships between spans of text that expose claim-evidence or inter-evidence conflicts and agreements that drive the model's predictive uncertainty in an unsupervised way, and (ii) generating explanations via prompting and attention steering that verbalize these critical interactions. Across three language models and two fact-checking datasets, we show that CLUE produces explanations that are more faithful to the model's uncertainty and more consistent with fact-checking decisions than prompting for uncertainty explanations without span-interaction guidance. Human evaluators judge our explanations to be more helpful, more informative, less redundant, and more logically consistent with the input than this baseline. CLUE requires no fine-tuning or architectural changes, making it plug-and-play for any white-box language model. By explicitly linking uncertainty to evidence conflicts, it offers practical support for fact-checking and generalises readily to other tasks that require reasoning over complex information.
PDF11May 28, 2025