Os Modelos de Linguagem Preferem o que Conhecem: Estimação de Confiança Relativa por meio de Preferências de Confiança
Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences
February 3, 2025
Autores: Vaishnavi Shrivastava, Ananya Kumar, Percy Liang
cs.AI
Resumo
Os modelos de linguagem (LMs) devem fornecer estimativas de confiança confiáveis para ajudar os usuários a detectar erros em suas saídas e recorrer a especialistas humanos quando necessário. Pedir a um modelo de linguagem para avaliar sua confiança ("Avalie sua confiança de 0 a 1.") é uma forma natural de avaliar sua incerteza. No entanto, os modelos têm dificuldade em fornecer avaliações absolutas de confiança (ou seja, julgar a confiança em responder a uma pergunta independentemente de outras perguntas) e as pontuações grosseiras que produzem não são úteis para avaliar a correção de suas respostas. Propomos a estimativa de confiança relativa, onde confrontamos perguntas umas contra as outras e pedimos ao modelo para fazer julgamentos relativos de confiança ("Em qual pergunta você está mais confiante em responder corretamente?"). Tratando cada pergunta como um "jogador" em uma série de confrontos contra outras perguntas e as preferências do modelo como resultados de confrontos, podemos usar métodos de agregação de classificação como Elo rating e Bradley-Terry para traduzir as preferências de confiança do modelo em pontuações de confiança. Avaliamos a estimativa de confiança relativa em comparação com a estimativa de confiança absoluta e métodos de confiança de autoconsistência em cinco modelos de ponta de LMs -- GPT-4, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet e Llama 3.1 405B -- em 14 desafiadoras tarefas de perguntas e respostas de raciocínio STEM, ciências sociais e senso comum. Nossos resultados demonstram que a estimativa de confiança relativa fornece consistentemente pontuações de confiança mais confiáveis do que a estimativa de confiança absoluta, com ganhos médios de 3,5% em AUC de classificação seletiva em relação aos métodos de estimativa de confiança absoluta direta e 1,7% em relação às abordagens de autoconsistência em todos os modelos e conjuntos de dados.
English
Language models (LMs) should provide reliable confidence estimates to help
users detect mistakes in their outputs and defer to human experts when
necessary. Asking a language model to assess its confidence ("Score your
confidence from 0-1.") is a natural way of evaluating its uncertainty. However,
models struggle to provide absolute assessments of confidence (i.e. judging
confidence in answering a question independent of other questions) and the
coarse-grained scores they produce are not useful for evaluating the
correctness of their answers. We propose relative confidence estimation, where
we match up questions against each other and ask the model to make relative
judgments of confidence ("Which question are you more confident in answering
correctly?"). Treating each question as a "player" in a series of matchups
against other questions and the model's preferences as match outcomes, we can
use rank aggregation methods like Elo rating and Bradley-Terry to translate the
model's confidence preferences into confidence scores. We evaluate relative
confidence estimation against absolute confidence estimation and
self-consistency confidence methods on five state-of-the-art LMs -- GPT-4,
GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet, and Llama 3.1 405B -- across 14
challenging STEM, social science, and commonsense reasoning question answering
tasks. Our results demonstrate that relative confidence estimation consistently
provides more reliable confidence scores than absolute confidence estimation,
with average gains of 3.5% in selective classification AUC over direct absolute
confidence estimation methods and 1.7% over self-consistency approaches across
all models and datasets.Summary
AI-Generated Summary