ChatPaper.aiChatPaper

Vertrouwensschatting van Grote Taalmodellen via Black-Box Toegang

Large Language Model Confidence Estimation via Black-Box Access

June 1, 2024
Auteurs: Tejaswini Pedapati, Amit Dhurandhar, Soumya Ghosh, Soham Dan, Prasanna Sattigeri
cs.AI

Samenvatting

Het schatten van onzekerheid of betrouwbaarheid in de antwoorden van een model kan van groot belang zijn bij het evalueren van vertrouwen, niet alleen in de antwoorden, maar ook in het model als geheel. In dit artikel onderzoeken we het probleem van het schatten van betrouwbaarheid voor de antwoorden van grote taalmodellen (LLM's) met slechts black-box of query-toegang tot deze modellen. We stellen een eenvoudig en uitbreidbaar raamwerk voor waarin we nieuwe kenmerken ontwikkelen en een (interpreteerbaar) model (namelijk logistische regressie) trainen op deze kenmerken om de betrouwbaarheid te schatten. We tonen empirisch aan dat ons eenvoudige raamwerk effectief is in het schatten van de betrouwbaarheid van flan-ul2, llama-13b en mistral-7b, waarbij het consistent bestaande black-box benaderingen voor betrouwbaarheidsschatting overtreft op benchmarkdatasets zoals TriviaQA, SQuAD, CoQA en Natural Questions, in sommige gevallen zelfs met meer dan 10% (op AUROC). Daarnaast biedt onze interpreteerbare aanpak inzicht in kenmerken die voorspellend zijn voor betrouwbaarheid, wat leidt tot de interessante en nuttige ontdekking dat onze betrouwbaarheidsmodellen die voor één LLM zijn gebouwd, zero-shot generaliseren naar andere modellen op een gegeven dataset.
English
Estimating uncertainty or confidence in the responses of a model can be significant in evaluating trust not only in the responses, but also in the model as a whole. In this paper, we explore the problem of estimating confidence for responses of large language models (LLMs) with simply black-box or query access to them. We propose a simple and extensible framework where, we engineer novel features and train a (interpretable) model (viz. logistic regression) on these features to estimate the confidence. We empirically demonstrate that our simple framework is effective in estimating confidence of flan-ul2, llama-13b and mistral-7b with it consistently outperforming existing black-box confidence estimation approaches on benchmark datasets such as TriviaQA, SQuAD, CoQA and Natural Questions by even over 10% (on AUROC) in some cases. Additionally, our interpretable approach provides insight into features that are predictive of confidence, leading to the interesting and useful discovery that our confidence models built for one LLM generalize zero-shot across others on a given dataset.
PDF220February 7, 2026