Estimativa de Confiança em Modelos de Linguagem de Grande Escala por meio de Acesso em Caixa Preta
Large Language Model Confidence Estimation via Black-Box Access
June 1, 2024
Autores: Tejaswini Pedapati, Amit Dhurandhar, Soumya Ghosh, Soham Dan, Prasanna Sattigeri
cs.AI
Resumo
Estimar a incerteza ou a confiança nas respostas de um modelo pode ser significativo para avaliar a confiança não apenas nas respostas, mas também no modelo como um todo. Neste artigo, exploramos o problema de estimar a confiança para respostas de modelos de linguagem de grande escala (LLMs) com acesso apenas em caixa-preta ou por consulta. Propomos uma estrutura simples e extensível na qual projetamos novas características e treinamos um modelo interpretável (ou seja, regressão logística) nessas características para estimar a confiança. Demonstramos empiricamente que nossa estrutura simples é eficaz na estimativa da confiança de modelos como flan-ul2, llama-13b e mistral-7b, superando consistentemente as abordagens existentes de estimativa de confiança em caixa-preta em conjuntos de dados de referência como TriviaQA, SQuAD, CoQA e Natural Questions, em alguns casos por mais de 10% (em AUROC). Além disso, nossa abordagem interpretável fornece insights sobre as características que são preditivas de confiança, levando à descoberta interessante e útil de que nossos modelos de confiança construídos para um LLM generalizam de forma zero-shot para outros em um determinado conjunto de dados.
English
Estimating uncertainty or confidence in the responses of a model can be
significant in evaluating trust not only in the responses, but also in the
model as a whole. In this paper, we explore the problem of estimating
confidence for responses of large language models (LLMs) with simply black-box
or query access to them. We propose a simple and extensible framework where, we
engineer novel features and train a (interpretable) model (viz. logistic
regression) on these features to estimate the confidence. We empirically
demonstrate that our simple framework is effective in estimating confidence of
flan-ul2, llama-13b and mistral-7b with it consistently outperforming existing
black-box confidence estimation approaches on benchmark datasets such as
TriviaQA, SQuAD, CoQA and Natural Questions by even over 10% (on AUROC) in
some cases. Additionally, our interpretable approach provides insight into
features that are predictive of confidence, leading to the interesting and
useful discovery that our confidence models built for one LLM generalize
zero-shot across others on a given dataset.