Explicando as Fontes de Incerteza na Verificação Automatizada de Fatos

Resumo

Compreender as fontes de incerteza de um modelo em relação às suas previsões é crucial para uma colaboração eficaz entre humanos e IA. Trabalhos anteriores propõem o uso de incerteza numérica ou expressões de hesitação ("Não tenho certeza, mas..."), que não explicam a incerteza decorrente de evidências conflitantes, deixando os usuários incapazes de resolver discordâncias ou confiar na saída. Apresentamos o CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations), o primeiro framework para gerar explicações em linguagem natural sobre a incerteza do modelo, ao (i) identificar relações entre trechos de texto que revelam conflitos ou concordâncias entre afirmações e evidências ou entre evidências, que impulsionam a incerteza preditiva do modelo de forma não supervisionada, e (ii) gerar explicações por meio de prompts e direcionamento de atenção que verbalizam essas interações críticas. Em três modelos de linguagem e dois conjuntos de dados de verificação de fatos, mostramos que o CLUE produz explicações mais fiéis à incerteza do modelo e mais consistentes com decisões de verificação de fatos do que solicitar explicações de incerteza sem orientação sobre interações entre trechos. Avaliadores humanos consideram nossas explicações mais úteis, mais informativas, menos redundantes e mais logicamente consistentes com a entrada do que essa linha de base. O CLUE não requer ajuste fino ou alterações arquitetônicas, tornando-o plug-and-play para qualquer modelo de linguagem de caixa branca. Ao vincular explicitamente a incerteza a conflitos de evidências, ele oferece suporte prático para verificação de fatos e se generaliza facilmente para outras tarefas que exigem raciocínio sobre informações complexas.

English

Understanding sources of a model's uncertainty regarding its predictions is crucial for effective human-AI collaboration. Prior work proposes using numerical uncertainty or hedges ("I'm not sure, but ..."), which do not explain uncertainty that arises from conflicting evidence, leaving users unable to resolve disagreements or rely on the output. We introduce CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations), the first framework to generate natural language explanations of model uncertainty by (i) identifying relationships between spans of text that expose claim-evidence or inter-evidence conflicts and agreements that drive the model's predictive uncertainty in an unsupervised way, and (ii) generating explanations via prompting and attention steering that verbalize these critical interactions. Across three language models and two fact-checking datasets, we show that CLUE produces explanations that are more faithful to the model's uncertainty and more consistent with fact-checking decisions than prompting for uncertainty explanations without span-interaction guidance. Human evaluators judge our explanations to be more helpful, more informative, less redundant, and more logically consistent with the input than this baseline. CLUE requires no fine-tuning or architectural changes, making it plug-and-play for any white-box language model. By explicitly linking uncertainty to evidence conflicts, it offers practical support for fact-checking and generalises readily to other tasks that require reasoning over complex information.

Explicando as Fontes de Incerteza na Verificação Automatizada de Fatos

Explaining Sources of Uncertainty in Automated Fact-Checking

Resumo

Support