MetaFaith: Zuverlässiger Ausdruck von Unsicherheit in natürlicher Sprache durch LLMs
MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs
May 30, 2025
Autoren: Gabrielle Kaili-May Liu, Gal Yona, Avi Caciularu, Idan Szpektor, Tim G. J. Rudner, Arman Cohan
cs.AI
Zusammenfassung
Ein entscheidender Bestandteil für die Vertrauenswürdigkeit von LLMs (Large Language Models) ist die zuverlässige Kommunikation von Unsicherheit. Dennoch verwenden LLMs oft selbstbewusste Sprache, wenn sie falsche Behauptungen übermitteln, was zu übermäßigem Vertrauen und einem Abbau des Vertrauens führt. Wir präsentieren die erste systematische Studie zur treuen Konfidenzkalibrierung von LLMs, bei der die Fähigkeit der Modelle bewertet wird, sprachliche Ausdrücke von Unsicherheit zu verwenden, die ihre intrinsische Unsicherheit treu widerspiegeln. Dies erfolgt über eine umfassende Auswahl von Modellen, Datensätzen und Prompting-Strategien. Unsere Ergebnisse zeigen, dass LLMs bei dieser Aufgabe weitgehend versagen und dass bestehende Interventionen unzureichend sind: Standard-Prompt-Ansätze bieten nur marginale Verbesserungen, und bestehende, faktenbasierte Kalibrierungstechniken können die treue Kalibrierung sogar beeinträchtigen. Um diese kritische Lücke zu schließen, führen wir MetaFaith ein, einen neuartigen Prompt-basierten Kalibrierungsansatz, der von der menschlichen Metakognition inspiriert ist. Wir zeigen, dass MetaFaith die treue Kalibrierung robust über verschiedene Modelle und Aufgabenbereiche hinweg verbessert, mit einer Verbesserung der Treue um bis zu 61 % und einer Gewinnrate von 83 % gegenüber den ursprünglichen Generationen, wie von Menschen beurteilt.
English
A critical component in the trustworthiness of LLMs is reliable uncertainty
communication, yet LLMs often use assertive language when conveying false
claims, leading to over-reliance and eroded trust. We present the first
systematic study of faithful confidence calibration of LLMs,
benchmarking models' ability to use linguistic expressions of uncertainty that
faithfully reflect their intrinsic uncertainty, across a
comprehensive array of models, datasets, and prompting strategies. Our results
demonstrate that LLMs largely fail at this task, and that existing
interventions are insufficient: standard prompt approaches provide only
marginal gains, and existing, factuality-based calibration techniques can even
harm faithful calibration. To address this critical gap, we introduce
MetaFaith, a novel prompt-based calibration approach inspired by human
metacognition. We show that MetaFaith robustly improves faithful calibration
across diverse models and task domains, enabling up to 61% improvement in
faithfulness and achieving an 83% win rate over original generations as judged
by humans.