MetaFaith: Expressão Fiel de Incerteza em Linguagem Natural em LLMs
MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs
May 30, 2025
Autores: Gabrielle Kaili-May Liu, Gal Yona, Avi Caciularu, Idan Szpektor, Tim G. J. Rudner, Arman Cohan
cs.AI
Resumo
Um componente crítico para a confiabilidade dos LLMs (Modelos de Linguagem de Grande Escala) é a comunicação confiável de incerteza, no entanto, os LLMs frequentemente utilizam linguagem assertiva ao transmitir afirmações falsas, levando à superconfiança e à erosão da confiança. Apresentamos o primeiro estudo sistemático de calibração de confiança fiel em LLMs, avaliando a capacidade dos modelos de usar expressões linguísticas de incerteza que refletem fielmente sua incerteza intrínseca, abrangendo uma ampla gama de modelos, conjuntos de dados e estratégias de prompt. Nossos resultados demonstram que os LLMs falham amplamente nessa tarefa e que as intervenções existentes são insuficientes: abordagens padrão de prompt oferecem apenas ganhos marginais, e técnicas de calibração baseadas em factualidade podem até prejudicar a calibração fiel. Para abordar essa lacuna crítica, introduzimos o MetaFaith, uma nova abordagem de calibração baseada em prompt inspirada na metacognição humana. Mostramos que o MetaFaith melhora robustamente a calibração fiel em diversos modelos e domínios de tarefas, permitindo uma melhoria de até 61% na fidelidade e alcançando uma taxa de sucesso de 83% em comparação com as gerações originais, conforme avaliado por humanos.
English
A critical component in the trustworthiness of LLMs is reliable uncertainty
communication, yet LLMs often use assertive language when conveying false
claims, leading to over-reliance and eroded trust. We present the first
systematic study of faithful confidence calibration of LLMs,
benchmarking models' ability to use linguistic expressions of uncertainty that
faithfully reflect their intrinsic uncertainty, across a
comprehensive array of models, datasets, and prompting strategies. Our results
demonstrate that LLMs largely fail at this task, and that existing
interventions are insufficient: standard prompt approaches provide only
marginal gains, and existing, factuality-based calibration techniques can even
harm faithful calibration. To address this critical gap, we introduce
MetaFaith, a novel prompt-based calibration approach inspired by human
metacognition. We show that MetaFaith robustly improves faithful calibration
across diverse models and task domains, enabling up to 61% improvement in
faithfulness and achieving an 83% win rate over original generations as judged
by humans.