I Lama Sanno Ciò che i GPT Non Mostrano: Modelli Surrogati per la Stima della Confidenza
Llamas Know What GPTs Don't Show: Surrogate Models for Confidence Estimation
November 15, 2023
Autori: Vaishnavi Shrivastava, Percy Liang, Ananya Kumar
cs.AI
Abstract
Per mantenere la fiducia degli utenti, i grandi modelli linguistici (LLM) dovrebbero segnalare una bassa confidenza negli esempi in cui sono errati, invece di indurre in errore l'utente. L'approccio standard per stimare la confidenza consiste nell'utilizzare le probabilità softmax di questi modelli, ma a novembre 2023, gli LLM all'avanguardia come GPT-4 e Claude-v1.3 non forniscono accesso a queste probabilità. Inizialmente, studiamo l'elicitazione della confidenza in modo linguistico — chiedendo a un LLM di esprimere la sua confidenza nella risposta — che ottiene risultati ragionevoli (80,5% di AUC su GPT-4, mediato su 12 dataset di domande e risposte — 7% al di sopra di una baseline casuale) ma lascia spazio a miglioramenti. Successivamente, esploriamo l'uso di un modello surrogato di confidenza — utilizzando un modello per cui abbiamo accesso alle probabilità per valutare la confidenza del modello originale in una determinata domanda. Sorprendentemente, anche se queste probabilità provengono da un modello diverso e spesso meno performante, questo metodo porta a un AUC più elevato rispetto alle confidenze linguistiche in 9 dei 12 dataset. Il nostro miglior metodo, che combina confidenze linguistiche e probabilità del modello surrogato, fornisce stime di confidenza all'avanguardia su tutti i 12 dataset (84,6% di AUC medio su GPT-4).
English
To maintain user trust, large language models (LLMs) should signal low
confidence on examples where they are incorrect, instead of misleading the
user. The standard approach of estimating confidence is to use the softmax
probabilities of these models, but as of November 2023, state-of-the-art LLMs
such as GPT-4 and Claude-v1.3 do not provide access to these probabilities. We
first study eliciting confidence linguistically -- asking an LLM for its
confidence in its answer -- which performs reasonably (80.5% AUC on GPT-4
averaged across 12 question-answering datasets -- 7% above a random baseline)
but leaves room for improvement. We then explore using a surrogate confidence
model -- using a model where we do have probabilities to evaluate the original
model's confidence in a given question. Surprisingly, even though these
probabilities come from a different and often weaker model, this method leads
to higher AUC than linguistic confidences on 9 out of 12 datasets. Our best
method composing linguistic confidences and surrogate model probabilities gives
state-of-the-art confidence estimates on all 12 datasets (84.6% average AUC on
GPT-4).