Les Llamas Savent Ce Que Les GPT Ne Montrent Pas : Modèles Substituts pour l'Estimation de la Confiance
Llamas Know What GPTs Don't Show: Surrogate Models for Confidence Estimation
November 15, 2023
Auteurs: Vaishnavi Shrivastava, Percy Liang, Ananya Kumar
cs.AI
Résumé
Pour maintenir la confiance des utilisateurs, les grands modèles de langage (LLM) devraient signaler une faible confiance sur les exemples où ils se trompent, plutôt que d'induire les utilisateurs en erreur. L'approche standard pour estimer la confiance consiste à utiliser les probabilités softmax de ces modèles, mais en novembre 2023, les LLM de pointe tels que GPT-4 et Claude-v1.3 ne fournissent pas accès à ces probabilités. Nous étudions d'abord l'expression de la confiance de manière linguistique — en demandant à un LLM d'évaluer sa confiance dans sa réponse — ce qui donne des résultats raisonnables (80,5 % d'AUC sur GPT-4 en moyenne sur 12 ensembles de données de questions-réponses — 7 % au-dessus d'une base aléatoire) mais laisse place à l'amélioration. Nous explorons ensuite l'utilisation d'un modèle de confiance substitut — en utilisant un modèle pour lequel nous avons accès aux probabilités afin d'évaluer la confiance du modèle original sur une question donnée. Étonnamment, bien que ces probabilités proviennent d'un modèle différent et souvent moins performant, cette méthode conduit à une AUC plus élevée que les confiances linguistiques sur 9 des 12 ensembles de données. Notre meilleure méthode, combinant les confiances linguistiques et les probabilités du modèle substitut, fournit des estimations de confiance de pointe sur les 12 ensembles de données (84,6 % d'AUC moyenne sur GPT-4).
English
To maintain user trust, large language models (LLMs) should signal low
confidence on examples where they are incorrect, instead of misleading the
user. The standard approach of estimating confidence is to use the softmax
probabilities of these models, but as of November 2023, state-of-the-art LLMs
such as GPT-4 and Claude-v1.3 do not provide access to these probabilities. We
first study eliciting confidence linguistically -- asking an LLM for its
confidence in its answer -- which performs reasonably (80.5% AUC on GPT-4
averaged across 12 question-answering datasets -- 7% above a random baseline)
but leaves room for improvement. We then explore using a surrogate confidence
model -- using a model where we do have probabilities to evaluate the original
model's confidence in a given question. Surprisingly, even though these
probabilities come from a different and often weaker model, this method leads
to higher AUC than linguistic confidences on 9 out of 12 datasets. Our best
method composing linguistic confidences and surrogate model probabilities gives
state-of-the-art confidence estimates on all 12 datasets (84.6% average AUC on
GPT-4).