MetaFaith: Expressão Fiel de Incerteza em Linguagem Natural em LLMs

Resumo

Um componente crítico para a confiabilidade dos LLMs (Modelos de Linguagem de Grande Escala) é a comunicação confiável de incerteza, no entanto, os LLMs frequentemente utilizam linguagem assertiva ao transmitir afirmações falsas, levando à superconfiança e à erosão da confiança. Apresentamos o primeiro estudo sistemático de calibração de confiança fiel em LLMs, avaliando a capacidade dos modelos de usar expressões linguísticas de incerteza que refletem fielmente sua incerteza intrínseca, abrangendo uma ampla gama de modelos, conjuntos de dados e estratégias de prompt. Nossos resultados demonstram que os LLMs falham amplamente nessa tarefa e que as intervenções existentes são insuficientes: abordagens padrão de prompt oferecem apenas ganhos marginais, e técnicas de calibração baseadas em factualidade podem até prejudicar a calibração fiel. Para abordar essa lacuna crítica, introduzimos o MetaFaith, uma nova abordagem de calibração baseada em prompt inspirada na metacognição humana. Mostramos que o MetaFaith melhora robustamente a calibração fiel em diversos modelos e domínios de tarefas, permitindo uma melhoria de até 61% na fidelidade e alcançando uma taxa de sucesso de 83% em comparação com as gerações originais, conforme avaliado por humanos.

English

A critical component in the trustworthiness of LLMs is reliable uncertainty communication, yet LLMs often use assertive language when conveying false claims, leading to over-reliance and eroded trust. We present the first systematic study of faithful confidence calibration of LLMs, benchmarking models' ability to use linguistic expressions of uncertainty that faithfully reflect their intrinsic uncertainty, across a comprehensive array of models, datasets, and prompting strategies. Our results demonstrate that LLMs largely fail at this task, and that existing interventions are insufficient: standard prompt approaches provide only marginal gains, and existing, factuality-based calibration techniques can even harm faithful calibration. To address this critical gap, we introduce MetaFaith, a novel prompt-based calibration approach inspired by human metacognition. We show that MetaFaith robustly improves faithful calibration across diverse models and task domains, enabling up to 61% improvement in faithfulness and achieving an 83% win rate over original generations as judged by humans.

MetaFaith: Expressão Fiel de Incerteza em Linguagem Natural em LLMs

MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs

Resumo

Support