Estimation de la confiance des grands modèles de langage via un accès en boîte noire
Large Language Model Confidence Estimation via Black-Box Access
June 1, 2024
Auteurs: Tejaswini Pedapati, Amit Dhurandhar, Soumya Ghosh, Soham Dan, Prasanna Sattigeri
cs.AI
Résumé
L'estimation de l'incertitude ou de la confiance dans les réponses d'un modèle peut être cruciale pour évaluer la fiabilité non seulement des réponses, mais aussi du modèle dans son ensemble. Dans cet article, nous explorons le problème de l'estimation de la confiance pour les réponses des grands modèles de langage (LLMs) avec un accès simple en boîte noire ou par requête. Nous proposons un cadre simple et extensible dans lequel nous concevons de nouvelles caractéristiques et entraînons un modèle interprétable (à savoir, une régression logistique) sur ces caractéristiques pour estimer la confiance. Nous démontrons empiriquement que notre cadre simple est efficace pour estimer la confiance de flan-ul2, llama-13b et mistral-7b, surpassant systématiquement les approches existantes d'estimation de la confiance en boîte noire sur des ensembles de données de référence tels que TriviaQA, SQuAD, CoQA et Natural Questions, parfois avec une amélioration de plus de 10 % (en termes d'AUROC). De plus, notre approche interprétable fournit des insights sur les caractéristiques prédictives de la confiance, conduisant à la découverte intéressante et utile que nos modèles de confiance construits pour un LLM se généralisent en zero-shot à d'autres modèles sur un ensemble de données donné.
English
Estimating uncertainty or confidence in the responses of a model can be
significant in evaluating trust not only in the responses, but also in the
model as a whole. In this paper, we explore the problem of estimating
confidence for responses of large language models (LLMs) with simply black-box
or query access to them. We propose a simple and extensible framework where, we
engineer novel features and train a (interpretable) model (viz. logistic
regression) on these features to estimate the confidence. We empirically
demonstrate that our simple framework is effective in estimating confidence of
flan-ul2, llama-13b and mistral-7b with it consistently outperforming existing
black-box confidence estimation approaches on benchmark datasets such as
TriviaQA, SQuAD, CoQA and Natural Questions by even over 10% (on AUROC) in
some cases. Additionally, our interpretable approach provides insight into
features that are predictive of confidence, leading to the interesting and
useful discovery that our confidence models built for one LLM generalize
zero-shot across others on a given dataset.Summary
AI-Generated Summary