Lhamas Sabem o que os GPTs Não Mostram: Modelos Substitutos para Estimativa de Confiança
Llamas Know What GPTs Don't Show: Surrogate Models for Confidence Estimation
November 15, 2023
Autores: Vaishnavi Shrivastava, Percy Liang, Ananya Kumar
cs.AI
Resumo
Para manter a confiança do usuário, os grandes modelos de linguagem (LLMs) devem indicar baixa confiança em exemplos onde estão incorretos, em vez de enganar o usuário. A abordagem padrão para estimar a confiança é usar as probabilidades softmax desses modelos, mas, a partir de novembro de 2023, LLMs de ponta, como GPT-4 e Claude-v1.3, não fornecem acesso a essas probabilidades. Primeiro, estudamos a eliciação de confiança linguisticamente — perguntando a um LLM sobre sua confiança em uma resposta — o que apresenta um desempenho razoável (80,5% AUC no GPT-4, média em 12 conjuntos de dados de perguntas e respostas — 7% acima de uma linha de base aleatória), mas ainda deixa espaço para melhorias. Em seguida, exploramos o uso de um modelo de confiança substituto — utilizando um modelo onde temos probabilidades para avaliar a confiança do modelo original em uma determinada pergunta. Surpreendentemente, mesmo que essas probabilidades venham de um modelo diferente e frequentemente mais fraco, esse método resulta em uma AUC maior do que as confianças linguísticas em 9 dos 12 conjuntos de dados. Nosso melhor método, que combina confianças linguísticas e probabilidades do modelo substituto, fornece estimativas de confiança de ponta em todos os 12 conjuntos de dados (84,6% AUC média no GPT-4).
English
To maintain user trust, large language models (LLMs) should signal low
confidence on examples where they are incorrect, instead of misleading the
user. The standard approach of estimating confidence is to use the softmax
probabilities of these models, but as of November 2023, state-of-the-art LLMs
such as GPT-4 and Claude-v1.3 do not provide access to these probabilities. We
first study eliciting confidence linguistically -- asking an LLM for its
confidence in its answer -- which performs reasonably (80.5% AUC on GPT-4
averaged across 12 question-answering datasets -- 7% above a random baseline)
but leaves room for improvement. We then explore using a surrogate confidence
model -- using a model where we do have probabilities to evaluate the original
model's confidence in a given question. Surprisingly, even though these
probabilities come from a different and often weaker model, this method leads
to higher AUC than linguistic confidences on 9 out of 12 datasets. Our best
method composing linguistic confidences and surrogate model probabilities gives
state-of-the-art confidence estimates on all 12 datasets (84.6% average AUC on
GPT-4).