Lama's Weten Wat GPT's Niet Laten Zien: Surrogaatmodellen voor Schatting van Betrouwbaarheid
Llamas Know What GPTs Don't Show: Surrogate Models for Confidence Estimation
November 15, 2023
Auteurs: Vaishnavi Shrivastava, Percy Liang, Ananya Kumar
cs.AI
Samenvatting
Om het vertrouwen van gebruikers te behouden, zouden grote taalmodellen (LLMs) een lage zekerheid moeten aangeven bij voorbeelden waar ze onjuist zijn, in plaats van de gebruiker te misleiden. De standaardaanpak om zekerheid te schatten is het gebruik van de softmax-kansen van deze modellen, maar vanaf november 2023 bieden state-of-the-art LLMs zoals GPT-4 en Claude-v1.3 geen toegang tot deze kansen. We onderzoeken eerst het linguïstisch afleiden van zekerheid — door een LLM te vragen naar zijn zekerheid over zijn antwoord — wat redelijk presteert (80,5% AUC op GPT-4, gemiddeld over 12 vraag-antwoorddatasets — 7% boven een willekeurige basislijn) maar ruimte laat voor verbetering. Vervolgens verkennen we het gebruik van een surrogaatzekerheidsmodel — waarbij we een model gebruiken waar we wel kansen hebben om de zekerheid van het oorspronkelijke model bij een gegeven vraag te evalueren. Verrassend genoeg leidt deze methode, hoewel deze kansen afkomstig zijn van een ander en vaak zwakker model, tot een hogere AUC dan linguïstische zekerheden op 9 van de 12 datasets. Onze beste methode, die linguïstische zekerheden en surrogaatmodelkansen combineert, geeft state-of-the-art zekerheidsschattingen op alle 12 datasets (84,6% gemiddelde AUC op GPT-4).
English
To maintain user trust, large language models (LLMs) should signal low
confidence on examples where they are incorrect, instead of misleading the
user. The standard approach of estimating confidence is to use the softmax
probabilities of these models, but as of November 2023, state-of-the-art LLMs
such as GPT-4 and Claude-v1.3 do not provide access to these probabilities. We
first study eliciting confidence linguistically -- asking an LLM for its
confidence in its answer -- which performs reasonably (80.5% AUC on GPT-4
averaged across 12 question-answering datasets -- 7% above a random baseline)
but leaves room for improvement. We then explore using a surrogate confidence
model -- using a model where we do have probabilities to evaluate the original
model's confidence in a given question. Surprisingly, even though these
probabilities come from a different and often weaker model, this method leads
to higher AUC than linguistic confidences on 9 out of 12 datasets. Our best
method composing linguistic confidences and surrogate model probabilities gives
state-of-the-art confidence estimates on all 12 datasets (84.6% average AUC on
GPT-4).