Stima della Confidenza nei Modelli Linguistici di Grande Scala tramite Accesso in Modalità Black-Box
Large Language Model Confidence Estimation via Black-Box Access
June 1, 2024
Autori: Tejaswini Pedapati, Amit Dhurandhar, Soumya Ghosh, Soham Dan, Prasanna Sattigeri
cs.AI
Abstract
Stimare l'incertezza o la fiducia nelle risposte di un modello può essere significativo per valutare la fiducia non solo nelle risposte stesse, ma anche nel modello nel suo complesso. In questo articolo, esploriamo il problema di stimare la fiducia per le risposte di modelli linguistici di grandi dimensioni (LLM) con un semplice accesso in modalità black-box o tramite query. Proponiamo un framework semplice ed estensibile in cui progettiamo nuove feature e addestriamo un modello interpretabile (ad esempio, la regressione logistica) su queste feature per stimare la fiducia. Dimostriamo empiricamente che il nostro semplice framework è efficace nello stimare la fiducia di modelli come flan-ul2, llama-13b e mistral-7b, superando costantemente gli approcci esistenti di stima della fiducia in modalità black-box su dataset di riferimento come TriviaQA, SQuAD, CoQA e Natural Questions, in alcuni casi con un margine superiore al 10% (in termini di AUROC). Inoltre, il nostro approccio interpretabile fornisce insight sulle feature predittive della fiducia, portando alla scoperta interessante e utile che i nostri modelli di fiducia costruiti per un LLM si generalizzano in modalità zero-shot su altri LLM su un determinato dataset.
English
Estimating uncertainty or confidence in the responses of a model can be
significant in evaluating trust not only in the responses, but also in the
model as a whole. In this paper, we explore the problem of estimating
confidence for responses of large language models (LLMs) with simply black-box
or query access to them. We propose a simple and extensible framework where, we
engineer novel features and train a (interpretable) model (viz. logistic
regression) on these features to estimate the confidence. We empirically
demonstrate that our simple framework is effective in estimating confidence of
flan-ul2, llama-13b and mistral-7b with it consistently outperforming existing
black-box confidence estimation approaches on benchmark datasets such as
TriviaQA, SQuAD, CoQA and Natural Questions by even over 10% (on AUROC) in
some cases. Additionally, our interpretable approach provides insight into
features that are predictive of confidence, leading to the interesting and
useful discovery that our confidence models built for one LLM generalize
zero-shot across others on a given dataset.