ChatPaper.aiChatPaper

Llamas wissen, was GPTs nicht zeigen: Surrogatmodelle zur Schätzung von Konfidenzwerten

Llamas Know What GPTs Don't Show: Surrogate Models for Confidence Estimation

November 15, 2023
Autoren: Vaishnavi Shrivastava, Percy Liang, Ananya Kumar
cs.AI

Zusammenfassung

Um das Vertrauen der Nutzer zu bewahren, sollten große Sprachmodelle (LLMs) bei Beispielen, bei denen sie falsch liegen, ein geringes Vertrauen signalisieren, anstatt den Nutzer in die Irre zu führen. Der Standardansatz zur Schätzung des Vertrauens besteht darin, die Softmax-Wahrscheinlichkeiten dieser Modelle zu verwenden, aber Stand November 2023 bieten state-of-the-art LLMs wie GPT-4 und Claude-v1.3 keinen Zugriff auf diese Wahrscheinlichkeiten. Wir untersuchen zunächst, das Vertrauen sprachlich zu ermitteln – indem wir ein LLM nach seinem Vertrauen in seine Antwort fragen – was vernünftige Ergebnisse liefert (80,5 % AUC bei GPT-4, gemittelt über 12 Frage-Antwort-Datensätze – 7 % über einer zufälligen Baseline), aber noch Raum für Verbesserungen lässt. Anschließend untersuchen wir die Verwendung eines Ersatzvertrauensmodells – ein Modell, bei dem wir Wahrscheinlichkeiten haben, um das Vertrauen des ursprünglichen Modells in eine gegebene Frage zu bewerten. Überraschenderweise führt diese Methode, obwohl diese Wahrscheinlichkeiten von einem anderen und oft schwächeren Modell stammen, bei 9 von 12 Datensätzen zu einer höheren AUC als sprachliche Vertrauensangaben. Unsere beste Methode, die sprachliche Vertrauensangaben und Wahrscheinlichkeiten des Ersatzmodells kombiniert, liefert state-of-the-art Vertrauensschätzungen für alle 12 Datensätze (84,6 % durchschnittliche AUC bei GPT-4).
English
To maintain user trust, large language models (LLMs) should signal low confidence on examples where they are incorrect, instead of misleading the user. The standard approach of estimating confidence is to use the softmax probabilities of these models, but as of November 2023, state-of-the-art LLMs such as GPT-4 and Claude-v1.3 do not provide access to these probabilities. We first study eliciting confidence linguistically -- asking an LLM for its confidence in its answer -- which performs reasonably (80.5% AUC on GPT-4 averaged across 12 question-answering datasets -- 7% above a random baseline) but leaves room for improvement. We then explore using a surrogate confidence model -- using a model where we do have probabilities to evaluate the original model's confidence in a given question. Surprisingly, even though these probabilities come from a different and often weaker model, this method leads to higher AUC than linguistic confidences on 9 out of 12 datasets. Our best method composing linguistic confidences and surrogate model probabilities gives state-of-the-art confidence estimates on all 12 datasets (84.6% average AUC on GPT-4).
PDF70December 15, 2024