Sprachmodelle bevorzugen, was sie kennen: Relative Vertrauensschätzung über Vertrauenspräferenzen
Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences
February 3, 2025
Autoren: Vaishnavi Shrivastava, Ananya Kumar, Percy Liang
cs.AI
Zusammenfassung
Sprachmodelle (LMs) sollten zuverlässige Vertrauensschätzungen liefern, um Benutzern zu helfen, Fehler in ihren Ausgaben zu erkennen und sich bei Bedarf an menschliche Experten zu wenden. Die Bitte an ein Sprachmodell, sein Vertrauen zu bewerten ("Bewerten Sie Ihr Vertrauen von 0-1."), ist eine natürliche Möglichkeit, um seine Unsicherheit zu bewerten. Allerdings haben Modelle Schwierigkeiten, absolute Bewertungen des Vertrauens bereitzustellen (d.h. das Vertrauen in die Beantwortung einer Frage unabhängig von anderen Fragen zu beurteilen), und die grobkörnigen Bewertungen, die sie produzieren, sind nicht nützlich zur Bewertung der Korrektheit ihrer Antworten. Wir schlagen relative Vertrauensschätzung vor, bei der wir Fragen miteinander abgleichen und das Modell bitten, relative Bewertungen des Vertrauens vorzunehmen ("In welcher Frage sind Sie sich sicherer, die korrekte Antwort zu geben?"). Indem wir jede Frage als "Spieler" in einer Serie von Vergleichen gegen andere Fragen behandeln und die Präferenzen des Modells als Ergebnisse der Vergleiche betrachten, können wir Ranglistenaggregationsmethoden wie Elo-Bewertung und Bradley-Terry verwenden, um die Vertrauenspräferenzen des Modells in Vertrauenswerte zu übersetzen. Wir evaluieren relative Vertrauensschätzung im Vergleich zur absoluten Vertrauensschätzung und Selbstkonsistenz-Vertrauensmethoden bei fünf modernsten LMs - GPT-4, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet und Llama 3.1 405B - über 14 anspruchsvolle STEM-, Sozialwissenschafts- und Alltagslogik-Frage-Antwort-Aufgaben. Unsere Ergebnisse zeigen, dass relative Vertrauensschätzung durchweg zuverlässigere Vertrauenswerte liefert als absolute Vertrauensschätzung, mit durchschnittlichen Gewinnen von 3,5% im selektiven Klassifikations-AUC gegenüber direkten absoluten Vertrauensschätzmethoden und 1,7% gegenüber Selbstkonsistenzansätzen über alle Modelle und Datensätze hinweg.
English
Language models (LMs) should provide reliable confidence estimates to help
users detect mistakes in their outputs and defer to human experts when
necessary. Asking a language model to assess its confidence ("Score your
confidence from 0-1.") is a natural way of evaluating its uncertainty. However,
models struggle to provide absolute assessments of confidence (i.e. judging
confidence in answering a question independent of other questions) and the
coarse-grained scores they produce are not useful for evaluating the
correctness of their answers. We propose relative confidence estimation, where
we match up questions against each other and ask the model to make relative
judgments of confidence ("Which question are you more confident in answering
correctly?"). Treating each question as a "player" in a series of matchups
against other questions and the model's preferences as match outcomes, we can
use rank aggregation methods like Elo rating and Bradley-Terry to translate the
model's confidence preferences into confidence scores. We evaluate relative
confidence estimation against absolute confidence estimation and
self-consistency confidence methods on five state-of-the-art LMs -- GPT-4,
GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet, and Llama 3.1 405B -- across 14
challenging STEM, social science, and commonsense reasoning question answering
tasks. Our results demonstrate that relative confidence estimation consistently
provides more reliable confidence scores than absolute confidence estimation,
with average gains of 3.5% in selective classification AUC over direct absolute
confidence estimation methods and 1.7% over self-consistency approaches across
all models and datasets.Summary
AI-Generated Summary