MetaFaith: Espressione Fedele dell'Incertezza nel Linguaggio Naturale nei Modelli Linguistici di Grandi Dimensioni

Abstract

Un componente cruciale per l'affidabilità dei modelli linguistici di grandi dimensioni (LLM) è una comunicazione affidabile dell'incertezza, eppure gli LLM spesso utilizzano un linguaggio assertivo quando trasmettono affermazioni false, portando a un eccessivo affidamento e a un'erosione della fiducia. Presentiamo il primo studio sistematico sulla calibrazione fedele della confidenza degli LLM, valutando la capacità dei modelli di utilizzare espressioni linguistiche di incertezza che riflettano fedelmente la loro incertezza intrinseca, attraverso una vasta gamma di modelli, dataset e strategie di prompting. I nostri risultati dimostrano che gli LLM falliscono in gran parte in questo compito e che gli interventi esistenti sono insufficienti: gli approcci standard di prompting offrono solo miglioramenti marginali e le tecniche di calibrazione basate sulla fattualità possono persino danneggiare la calibrazione fedele. Per colmare questa lacuna critica, introduciamo MetaFaith, un nuovo approccio di calibrazione basato su prompting ispirato alla metacognizione umana. Mostriamo che MetaFaith migliora robustamente la calibrazione fedele in diversi modelli e domini di attività, consentendo un miglioramento fino al 61% nella fedeltà e raggiungendo un tasso di successo dell'83% rispetto alle generazioni originali, come valutato da esseri umani.

English

A critical component in the trustworthiness of LLMs is reliable uncertainty communication, yet LLMs often use assertive language when conveying false claims, leading to over-reliance and eroded trust. We present the first systematic study of faithful confidence calibration of LLMs, benchmarking models' ability to use linguistic expressions of uncertainty that faithfully reflect their intrinsic uncertainty, across a comprehensive array of models, datasets, and prompting strategies. Our results demonstrate that LLMs largely fail at this task, and that existing interventions are insufficient: standard prompt approaches provide only marginal gains, and existing, factuality-based calibration techniques can even harm faithful calibration. To address this critical gap, we introduce MetaFaith, a novel prompt-based calibration approach inspired by human metacognition. We show that MetaFaith robustly improves faithful calibration across diverse models and task domains, enabling up to 61% improvement in faithfulness and achieving an 83% win rate over original generations as judged by humans.

MetaFaith: Espressione Fedele dell'Incertezza nel Linguaggio Naturale nei Modelli Linguistici di Grandi Dimensioni

MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs

Abstract

Support