I modelli linguistici preferiscono ciò che conoscono: stima della fiducia relativa tramite preferenze di fiducia
Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences
February 3, 2025
Autori: Vaishnavi Shrivastava, Ananya Kumar, Percy Liang
cs.AI
Abstract
I modelli linguistici (LM) dovrebbero fornire stime di fiducia affidabili per aiutare gli utenti a individuare errori nelle loro uscite e deferire agli esperti umani quando necessario. Chiedere a un modello linguistico di valutare la propria fiducia ("Valuta la tua fiducia da 0 a 1.") è un modo naturale per valutare la sua incertezza. Tuttavia, i modelli faticano a fornire valutazioni assolute di fiducia (ossia giudicare la fiducia nel rispondere a una domanda indipendentemente da altre domande) e i punteggi a grana grossa che producono non sono utili per valutare la correttezza delle loro risposte. Proponiamo una stima relativa della fiducia, in cui mettiamo a confronto domande tra loro e chiediamo al modello di formulare giudizi relativi di fiducia ("In quale domanda sei più sicuro di rispondere correttamente?"). Trattando ogni domanda come un "giocatore" in una serie di confronti con altre domande e le preferenze del modello come esiti del confronto, possiamo utilizzare metodi di aggregazione dei ranghi come il rating Elo e il metodo di Bradley-Terry per tradurre le preferenze di fiducia del modello in punteggi di fiducia. Valutiamo la stima relativa della fiducia rispetto alla stima assoluta della fiducia e ai metodi di fiducia di auto-coerenza su cinque modelli linguistici all'avanguardia - GPT-4, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet e Llama 3.1 405B - su 14 compiti di risposta a domande impegnative di STEM, scienze sociali e ragionamento di buon senso. I nostri risultati dimostrano che la stima relativa della fiducia fornisce in modo coerente punteggi di fiducia più affidabili rispetto alla stima assoluta della fiducia, con guadagni medi del 3,5% nell'AUC della classificazione selettiva rispetto ai metodi diretti di stima assoluta della fiducia e del 1,7% rispetto agli approcci di auto-coerenza su tutti i modelli e i set di dati.
English
Language models (LMs) should provide reliable confidence estimates to help
users detect mistakes in their outputs and defer to human experts when
necessary. Asking a language model to assess its confidence ("Score your
confidence from 0-1.") is a natural way of evaluating its uncertainty. However,
models struggle to provide absolute assessments of confidence (i.e. judging
confidence in answering a question independent of other questions) and the
coarse-grained scores they produce are not useful for evaluating the
correctness of their answers. We propose relative confidence estimation, where
we match up questions against each other and ask the model to make relative
judgments of confidence ("Which question are you more confident in answering
correctly?"). Treating each question as a "player" in a series of matchups
against other questions and the model's preferences as match outcomes, we can
use rank aggregation methods like Elo rating and Bradley-Terry to translate the
model's confidence preferences into confidence scores. We evaluate relative
confidence estimation against absolute confidence estimation and
self-consistency confidence methods on five state-of-the-art LMs -- GPT-4,
GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet, and Llama 3.1 405B -- across 14
challenging STEM, social science, and commonsense reasoning question answering
tasks. Our results demonstrate that relative confidence estimation consistently
provides more reliable confidence scores than absolute confidence estimation,
with average gains of 3.5% in selective classification AUC over direct absolute
confidence estimation methods and 1.7% over self-consistency approaches across
all models and datasets.Summary
AI-Generated Summary