Taalmodellen geven de voorkeur aan wat ze weten: Relatieve vertrouwensschatting via vertrouwensvoorkeuren
Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences
February 3, 2025
Auteurs: Vaishnavi Shrivastava, Ananya Kumar, Percy Liang
cs.AI
Samenvatting
Taalmodellen (LM's) moeten betrouwbare vertrouwensschattingen bieden om gebruikers te helpen fouten in hun uitvoer te detecteren en indien nodig door te verwijzen naar menselijke experts. Het vragen aan een taalmodel om zijn vertrouwen te beoordelen ("Beoordeel uw vertrouwen van 0-1.") is een natuurlijke manier om zijn onzekerheid te evalueren. Modellen hebben echter moeite om absolute beoordelingen van vertrouwen te geven (d.w.z. het beoordelen van vertrouwen bij het beantwoorden van een vraag onafhankelijk van andere vragen) en de grofkorrelige scores die ze produceren zijn niet nuttig voor het evalueren van de juistheid van hun antwoorden. Wij stellen relatieve vertrouwensschatting voor, waarbij we vragen tegen elkaar afzetten en het model vragen om relatieve beoordelingen van vertrouwen te maken ("In welke vraag heeft u meer vertrouwen om correct te antwoorden?"). Door elke vraag te behandelen als een "speler" in een reeks wedstrijden tegen andere vragen en de voorkeuren van het model als wedstrijduitslagen, kunnen we rangschikkingsaggregatiemethoden zoals Elo-rating en Bradley-Terry gebruiken om de vertrouwensvoorkeuren van het model om te zetten in vertrouwensscores. We evalueren relatieve vertrouwensschatting tegen absolute vertrouwensschatting en zelfconsistentie vertrouwensmethoden op vijf toonaangevende LM's - GPT-4, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet en Llama 3.1 405B - over 14 uitdagende STEM, sociale wetenschappen en gezond verstand redeneertaken. Onze resultaten tonen aan dat relatieve vertrouwensschatting consequent betrouwbaardere vertrouwensscores biedt dan absolute vertrouwensschatting, met gemiddelde winsten van 3,5% in selectieve classificatie AUC ten opzichte van directe absolute vertrouwensschattingmethoden en 1,7% ten opzichte van zelfconsistentiebenaderingen over alle modellen en datasets.
English
Language models (LMs) should provide reliable confidence estimates to help
users detect mistakes in their outputs and defer to human experts when
necessary. Asking a language model to assess its confidence ("Score your
confidence from 0-1.") is a natural way of evaluating its uncertainty. However,
models struggle to provide absolute assessments of confidence (i.e. judging
confidence in answering a question independent of other questions) and the
coarse-grained scores they produce are not useful for evaluating the
correctness of their answers. We propose relative confidence estimation, where
we match up questions against each other and ask the model to make relative
judgments of confidence ("Which question are you more confident in answering
correctly?"). Treating each question as a "player" in a series of matchups
against other questions and the model's preferences as match outcomes, we can
use rank aggregation methods like Elo rating and Bradley-Terry to translate the
model's confidence preferences into confidence scores. We evaluate relative
confidence estimation against absolute confidence estimation and
self-consistency confidence methods on five state-of-the-art LMs -- GPT-4,
GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet, and Llama 3.1 405B -- across 14
challenging STEM, social science, and commonsense reasoning question answering
tasks. Our results demonstrate that relative confidence estimation consistently
provides more reliable confidence scores than absolute confidence estimation,
with average gains of 3.5% in selective classification AUC over direct absolute
confidence estimation methods and 1.7% over self-consistency approaches across
all models and datasets.Summary
AI-Generated Summary