Estimativa de Confiança em Modelos de Linguagem de Grande Escala por meio de Acesso em Caixa Preta

Resumo

Estimar a incerteza ou a confiança nas respostas de um modelo pode ser significativo para avaliar a confiança não apenas nas respostas, mas também no modelo como um todo. Neste artigo, exploramos o problema de estimar a confiança para respostas de modelos de linguagem de grande escala (LLMs) com acesso apenas em caixa-preta ou por consulta. Propomos uma estrutura simples e extensível na qual projetamos novas características e treinamos um modelo interpretável (ou seja, regressão logística) nessas características para estimar a confiança. Demonstramos empiricamente que nossa estrutura simples é eficaz na estimativa da confiança de modelos como flan-ul2, llama-13b e mistral-7b, superando consistentemente as abordagens existentes de estimativa de confiança em caixa-preta em conjuntos de dados de referência como TriviaQA, SQuAD, CoQA e Natural Questions, em alguns casos por mais de 10% (em AUROC). Além disso, nossa abordagem interpretável fornece insights sobre as características que são preditivas de confiança, levando à descoberta interessante e útil de que nossos modelos de confiança construídos para um LLM generalizam de forma zero-shot para outros em um determinado conjunto de dados.

English

Estimating uncertainty or confidence in the responses of a model can be significant in evaluating trust not only in the responses, but also in the model as a whole. In this paper, we explore the problem of estimating confidence for responses of large language models (LLMs) with simply black-box or query access to them. We propose a simple and extensible framework where, we engineer novel features and train a (interpretable) model (viz. logistic regression) on these features to estimate the confidence. We empirically demonstrate that our simple framework is effective in estimating confidence of flan-ul2, llama-13b and mistral-7b with it consistently outperforming existing black-box confidence estimation approaches on benchmark datasets such as TriviaQA, SQuAD, CoQA and Natural Questions by even over 10% (on AUROC) in some cases. Additionally, our interpretable approach provides insight into features that are predictive of confidence, leading to the interesting and useful discovery that our confidence models built for one LLM generalize zero-shot across others on a given dataset.

Estimativa de Confiança em Modelos de Linguagem de Grande Escala por meio de Acesso em Caixa Preta

Large Language Model Confidence Estimation via Black-Box Access

Resumo

Support