Schätzung der Vertrauenswürdigkeit großer Sprachmodelle durch Black-Box-Zugriff
Large Language Model Confidence Estimation via Black-Box Access
June 1, 2024
Autoren: Tejaswini Pedapati, Amit Dhurandhar, Soumya Ghosh, Soham Dan, Prasanna Sattigeri
cs.AI
Zusammenfassung
Die Schätzung von Unsicherheit oder Vertrauen in die Antworten eines Modells kann bei der Bewertung des Vertrauens nicht nur in die Antworten, sondern auch in das Modell als Ganzes signifikant sein. In diesem Papier untersuchen wir das Problem der Schätzung von Vertrauen für Antworten großer Sprachmodelle (LLMs) mit einfachem Black-Box- oder Abfragezugriff auf sie. Wir schlagen einen einfachen und erweiterbaren Rahmen vor, in dem wir neuartige Merkmale konstruieren und ein (interpretierbares) Modell (z. B. logistische Regression) auf diesen Merkmalen trainieren, um das Vertrauen zu schätzen. Wir zeigen empirisch, dass unser einfacher Rahmen effektiv ist, um das Vertrauen von flan-ul2, llama-13b und mistral-7b abzuschätzen, wobei er bestehende Black-Box-Vertrauensschätzungsansätze auf Benchmark-Datensätzen wie TriviaQA, SQuAD, CoQA und Natural Questions in einigen Fällen sogar um über 10% (auf AUROC) übertrifft. Darüber hinaus bietet unser interpretierbarer Ansatz Einblicke in Merkmale, die das Vertrauen vorhersagen, und führt zur interessanten und nützlichen Entdeckung, dass unsere Vertrauensmodelle, die für ein LLM erstellt wurden, zero-shot auf andere in einem bestimmten Datensatz verallgemeinern.
English
Estimating uncertainty or confidence in the responses of a model can be
significant in evaluating trust not only in the responses, but also in the
model as a whole. In this paper, we explore the problem of estimating
confidence for responses of large language models (LLMs) with simply black-box
or query access to them. We propose a simple and extensible framework where, we
engineer novel features and train a (interpretable) model (viz. logistic
regression) on these features to estimate the confidence. We empirically
demonstrate that our simple framework is effective in estimating confidence of
flan-ul2, llama-13b and mistral-7b with it consistently outperforming existing
black-box confidence estimation approaches on benchmark datasets such as
TriviaQA, SQuAD, CoQA and Natural Questions by even over 10% (on AUROC) in
some cases. Additionally, our interpretable approach provides insight into
features that are predictive of confidence, leading to the interesting and
useful discovery that our confidence models built for one LLM generalize
zero-shot across others on a given dataset.Summary
AI-Generated Summary