MetaFaith: Zuverlässiger Ausdruck von Unsicherheit in natürlicher Sprache durch LLMs

papers.abstract

Ein entscheidender Bestandteil für die Vertrauenswürdigkeit von LLMs (Large Language Models) ist die zuverlässige Kommunikation von Unsicherheit. Dennoch verwenden LLMs oft selbstbewusste Sprache, wenn sie falsche Behauptungen übermitteln, was zu übermäßigem Vertrauen und einem Abbau des Vertrauens führt. Wir präsentieren die erste systematische Studie zur treuen Konfidenzkalibrierung von LLMs, bei der die Fähigkeit der Modelle bewertet wird, sprachliche Ausdrücke von Unsicherheit zu verwenden, die ihre intrinsische Unsicherheit treu widerspiegeln. Dies erfolgt über eine umfassende Auswahl von Modellen, Datensätzen und Prompting-Strategien. Unsere Ergebnisse zeigen, dass LLMs bei dieser Aufgabe weitgehend versagen und dass bestehende Interventionen unzureichend sind: Standard-Prompt-Ansätze bieten nur marginale Verbesserungen, und bestehende, faktenbasierte Kalibrierungstechniken können die treue Kalibrierung sogar beeinträchtigen. Um diese kritische Lücke zu schließen, führen wir MetaFaith ein, einen neuartigen Prompt-basierten Kalibrierungsansatz, der von der menschlichen Metakognition inspiriert ist. Wir zeigen, dass MetaFaith die treue Kalibrierung robust über verschiedene Modelle und Aufgabenbereiche hinweg verbessert, mit einer Verbesserung der Treue um bis zu 61 % und einer Gewinnrate von 83 % gegenüber den ursprünglichen Generationen, wie von Menschen beurteilt.

English

A critical component in the trustworthiness of LLMs is reliable uncertainty communication, yet LLMs often use assertive language when conveying false claims, leading to over-reliance and eroded trust. We present the first systematic study of faithful confidence calibration of LLMs, benchmarking models' ability to use linguistic expressions of uncertainty that faithfully reflect their intrinsic uncertainty, across a comprehensive array of models, datasets, and prompting strategies. Our results demonstrate that LLMs largely fail at this task, and that existing interventions are insufficient: standard prompt approaches provide only marginal gains, and existing, factuality-based calibration techniques can even harm faithful calibration. To address this critical gap, we introduce MetaFaith, a novel prompt-based calibration approach inspired by human metacognition. We show that MetaFaith robustly improves faithful calibration across diverse models and task domains, enabling up to 61% improvement in faithfulness and achieving an 83% win rate over original generations as judged by humans.

MetaFaith: Zuverlässiger Ausdruck von Unsicherheit in natürlicher Sprache durch LLMs

MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs

papers.abstract

Support