ChatPaper.aiChatPaper

Ламы знают то, что GPT не показывают: суррогатные модели для оценки уверенности

Llamas Know What GPTs Don't Show: Surrogate Models for Confidence Estimation

November 15, 2023
Авторы: Vaishnavi Shrivastava, Percy Liang, Ananya Kumar
cs.AI

Аннотация

Для поддержания доверия пользователей крупные языковые модели (LLM) должны сигнализировать о низкой уверенности в случаях, когда они ошибаются, вместо того чтобы вводить пользователя в заблуждение. Стандартный подход к оценке уверенности заключается в использовании вероятностей softmax этих моделей, однако по состоянию на ноябрь 2023 года передовые LLM, такие как GPT-4 и Claude-v1.3, не предоставляют доступ к этим вероятностям. Мы сначала исследуем метод получения уверенности лингвистически — запрашивая у LLM её уверенность в ответе, — который показывает приемлемые результаты (80,5% AUC на GPT-4 в среднем по 12 наборам данных для ответов на вопросы — на 7% выше случайного базового уровня), но оставляет пространство для улучшений. Затем мы исследуем использование суррогатной модели уверенности — модели, для которой у нас есть вероятности, чтобы оценить уверенность исходной модели в заданном вопросе. Удивительно, но даже несмотря на то, что эти вероятности получены от другой и зачастую менее мощной модели, этот метод приводит к более высокому AUC, чем лингвистическая уверенность, на 9 из 12 наборов данных. Наш лучший метод, объединяющий лингвистическую уверенность и вероятности суррогатной модели, обеспечивает передовые оценки уверенности на всех 12 наборах данных (84,6% средний AUC на GPT-4).
English
To maintain user trust, large language models (LLMs) should signal low confidence on examples where they are incorrect, instead of misleading the user. The standard approach of estimating confidence is to use the softmax probabilities of these models, but as of November 2023, state-of-the-art LLMs such as GPT-4 and Claude-v1.3 do not provide access to these probabilities. We first study eliciting confidence linguistically -- asking an LLM for its confidence in its answer -- which performs reasonably (80.5% AUC on GPT-4 averaged across 12 question-answering datasets -- 7% above a random baseline) but leaves room for improvement. We then explore using a surrogate confidence model -- using a model where we do have probabilities to evaluate the original model's confidence in a given question. Surprisingly, even though these probabilities come from a different and often weaker model, this method leads to higher AUC than linguistic confidences on 9 out of 12 datasets. Our best method composing linguistic confidences and surrogate model probabilities gives state-of-the-art confidence estimates on all 12 datasets (84.6% average AUC on GPT-4).
PDF70December 15, 2024