Explicando as Fontes de Incerteza na Verificação Automatizada de Fatos
Explaining Sources of Uncertainty in Automated Fact-Checking
May 23, 2025
Autores: Jingyi Sun, Greta Warren, Irina Shklovski, Isabelle Augenstein
cs.AI
Resumo
Compreender as fontes de incerteza de um modelo em relação às suas previsões é crucial para uma colaboração eficaz entre humanos e IA. Trabalhos anteriores propõem o uso de incerteza numérica ou expressões de hesitação ("Não tenho certeza, mas..."), que não explicam a incerteza decorrente de evidências conflitantes, deixando os usuários incapazes de resolver discordâncias ou confiar na saída. Apresentamos o CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations), o primeiro framework para gerar explicações em linguagem natural sobre a incerteza do modelo, ao (i) identificar relações entre trechos de texto que revelam conflitos ou concordâncias entre afirmações e evidências ou entre evidências, que impulsionam a incerteza preditiva do modelo de forma não supervisionada, e (ii) gerar explicações por meio de prompts e direcionamento de atenção que verbalizam essas interações críticas. Em três modelos de linguagem e dois conjuntos de dados de verificação de fatos, mostramos que o CLUE produz explicações mais fiéis à incerteza do modelo e mais consistentes com decisões de verificação de fatos do que solicitar explicações de incerteza sem orientação sobre interações entre trechos. Avaliadores humanos consideram nossas explicações mais úteis, mais informativas, menos redundantes e mais logicamente consistentes com a entrada do que essa linha de base. O CLUE não requer ajuste fino ou alterações arquitetônicas, tornando-o plug-and-play para qualquer modelo de linguagem de caixa branca. Ao vincular explicitamente a incerteza a conflitos de evidências, ele oferece suporte prático para verificação de fatos e se generaliza facilmente para outras tarefas que exigem raciocínio sobre informações complexas.
English
Understanding sources of a model's uncertainty regarding its predictions is
crucial for effective human-AI collaboration. Prior work proposes using
numerical uncertainty or hedges ("I'm not sure, but ..."), which do not explain
uncertainty that arises from conflicting evidence, leaving users unable to
resolve disagreements or rely on the output. We introduce CLUE
(Conflict-and-Agreement-aware Language-model Uncertainty Explanations), the
first framework to generate natural language explanations of model uncertainty
by (i) identifying relationships between spans of text that expose
claim-evidence or inter-evidence conflicts and agreements that drive the
model's predictive uncertainty in an unsupervised way, and (ii) generating
explanations via prompting and attention steering that verbalize these critical
interactions. Across three language models and two fact-checking datasets, we
show that CLUE produces explanations that are more faithful to the model's
uncertainty and more consistent with fact-checking decisions than prompting for
uncertainty explanations without span-interaction guidance. Human evaluators
judge our explanations to be more helpful, more informative, less redundant,
and more logically consistent with the input than this baseline. CLUE requires
no fine-tuning or architectural changes, making it plug-and-play for any
white-box language model. By explicitly linking uncertainty to evidence
conflicts, it offers practical support for fact-checking and generalises
readily to other tasks that require reasoning over complex information.