MetaFaith: Espressione Fedele dell'Incertezza nel Linguaggio Naturale nei Modelli Linguistici di Grandi Dimensioni
MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs
May 30, 2025
Autori: Gabrielle Kaili-May Liu, Gal Yona, Avi Caciularu, Idan Szpektor, Tim G. J. Rudner, Arman Cohan
cs.AI
Abstract
Un componente cruciale per l'affidabilità dei modelli linguistici di grandi dimensioni (LLM) è una comunicazione affidabile dell'incertezza, eppure gli LLM spesso utilizzano un linguaggio assertivo quando trasmettono affermazioni false, portando a un eccessivo affidamento e a un'erosione della fiducia. Presentiamo il primo studio sistematico sulla calibrazione fedele della confidenza degli LLM, valutando la capacità dei modelli di utilizzare espressioni linguistiche di incertezza che riflettano fedelmente la loro incertezza intrinseca, attraverso una vasta gamma di modelli, dataset e strategie di prompting. I nostri risultati dimostrano che gli LLM falliscono in gran parte in questo compito e che gli interventi esistenti sono insufficienti: gli approcci standard di prompting offrono solo miglioramenti marginali e le tecniche di calibrazione basate sulla fattualità possono persino danneggiare la calibrazione fedele. Per colmare questa lacuna critica, introduciamo MetaFaith, un nuovo approccio di calibrazione basato su prompting ispirato alla metacognizione umana. Mostriamo che MetaFaith migliora robustamente la calibrazione fedele in diversi modelli e domini di attività, consentendo un miglioramento fino al 61% nella fedeltà e raggiungendo un tasso di successo dell'83% rispetto alle generazioni originali, come valutato da esseri umani.
English
A critical component in the trustworthiness of LLMs is reliable uncertainty
communication, yet LLMs often use assertive language when conveying false
claims, leading to over-reliance and eroded trust. We present the first
systematic study of faithful confidence calibration of LLMs,
benchmarking models' ability to use linguistic expressions of uncertainty that
faithfully reflect their intrinsic uncertainty, across a
comprehensive array of models, datasets, and prompting strategies. Our results
demonstrate that LLMs largely fail at this task, and that existing
interventions are insufficient: standard prompt approaches provide only
marginal gains, and existing, factuality-based calibration techniques can even
harm faithful calibration. To address this critical gap, we introduce
MetaFaith, a novel prompt-based calibration approach inspired by human
metacognition. We show that MetaFaith robustly improves faithful calibration
across diverse models and task domains, enabling up to 61% improvement in
faithfulness and achieving an 83% win rate over original generations as judged
by humans.