Expliquer les sources d'incertitude dans la vérification automatisée des faits

papers.abstract

Comprendre les sources de l'incertitude d'un modèle concernant ses prédictions est crucial pour une collaboration efficace entre humains et IA. Les travaux antérieurs proposent d'utiliser des mesures numériques d'incertitude ou des expressions de prudence ("Je ne suis pas sûr, mais..."), qui n'expliquent pas l'incertitude résultant de preuves contradictoires, laissant les utilisateurs incapables de résoudre les désaccords ou de s'appuyer sur les résultats. Nous présentons CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations), le premier cadre capable de générer des explications en langage naturel de l'incertitude du modèle en (i) identifiant les relations entre des segments de texte qui révèlent des conflits ou des accords entre des affirmations et des preuves, ou entre différentes preuves, qui influencent l'incertitude prédictive du modèle de manière non supervisée, et (ii) générant des explications via des techniques de prompting et de pilotage de l'attention qui verbalisent ces interactions critiques. Sur trois modèles de langage et deux ensembles de données de vérification des faits, nous montrons que CLUE produit des explications plus fidèles à l'incertitude du modèle et plus cohérentes avec les décisions de vérification des faits que les explications d'incertitude générées sans guidage sur les interactions entre segments. Les évaluateurs humains jugent nos explications plus utiles, plus informatives, moins redondantes et plus logiquement cohérentes avec l'entrée que cette approche de référence. CLUE ne nécessite aucun ajustement fin ni modification architecturale, ce qui le rend prêt à l'emploi pour tout modèle de langage de type "boîte blanche". En reliant explicitement l'incertitude aux conflits de preuves, il offre un soutien pratique pour la vérification des faits et se généralise facilement à d'autres tâches nécessitant un raisonnement sur des informations complexes.

English

Understanding sources of a model's uncertainty regarding its predictions is crucial for effective human-AI collaboration. Prior work proposes using numerical uncertainty or hedges ("I'm not sure, but ..."), which do not explain uncertainty that arises from conflicting evidence, leaving users unable to resolve disagreements or rely on the output. We introduce CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations), the first framework to generate natural language explanations of model uncertainty by (i) identifying relationships between spans of text that expose claim-evidence or inter-evidence conflicts and agreements that drive the model's predictive uncertainty in an unsupervised way, and (ii) generating explanations via prompting and attention steering that verbalize these critical interactions. Across three language models and two fact-checking datasets, we show that CLUE produces explanations that are more faithful to the model's uncertainty and more consistent with fact-checking decisions than prompting for uncertainty explanations without span-interaction guidance. Human evaluators judge our explanations to be more helpful, more informative, less redundant, and more logically consistent with the input than this baseline. CLUE requires no fine-tuning or architectural changes, making it plug-and-play for any white-box language model. By explicitly linking uncertainty to evidence conflicts, it offers practical support for fact-checking and generalises readily to other tasks that require reasoning over complex information.

Expliquer les sources d'incertitude dans la vérification automatisée des faits

Explaining Sources of Uncertainty in Automated Fact-Checking

papers.abstract

Support