ChatPaper.aiChatPaper

Оценка уверенности крупной языковой модели с помощью черного ящика.

Large Language Model Confidence Estimation via Black-Box Access

June 1, 2024
Авторы: Tejaswini Pedapati, Amit Dhurandhar, Soumya Ghosh, Soham Dan, Prasanna Sattigeri
cs.AI

Аннотация

Оценка неопределенности или уверенности в ответах модели может быть значительной при оценке доверия не только к ответам, но и к самой модели в целом. В данной статье мы исследуем проблему оценки уверенности в ответах больших языковых моделей (LLM) с простым черным ящиком или запросом к ним. Мы предлагаем простую и расширяемую структуру, в рамках которой мы создаем новые признаки и обучаем модель (интерпретируемую) (например, логистическую регрессию) на этих признаках для оценки уверенности. Мы эмпирически демонстрируем, что наша простая структура эффективна в оценке уверенности flan-ul2, llama-13b и mistral-7b, превосходя существующие подходы к оценке уверенности черного ящика на стандартных наборах данных, таких как TriviaQA, SQuAD, CoQA и Natural Questions, даже более чем на 10% (по AUROC) в некоторых случаях. Кроме того, наш интерпретируемый подход предоставляет понимание признаков, которые предсказывают уверенность, что приводит к интересному и полезному открытию, что наши модели уверенности, построенные для одной LLM, обобщаются на другие нулевым шагом на данном наборе данных.
English
Estimating uncertainty or confidence in the responses of a model can be significant in evaluating trust not only in the responses, but also in the model as a whole. In this paper, we explore the problem of estimating confidence for responses of large language models (LLMs) with simply black-box or query access to them. We propose a simple and extensible framework where, we engineer novel features and train a (interpretable) model (viz. logistic regression) on these features to estimate the confidence. We empirically demonstrate that our simple framework is effective in estimating confidence of flan-ul2, llama-13b and mistral-7b with it consistently outperforming existing black-box confidence estimation approaches on benchmark datasets such as TriviaQA, SQuAD, CoQA and Natural Questions by even over 10% (on AUROC) in some cases. Additionally, our interpretable approach provides insight into features that are predictive of confidence, leading to the interesting and useful discovery that our confidence models built for one LLM generalize zero-shot across others on a given dataset.

Summary

AI-Generated Summary

PDF230December 8, 2024