Языковые модели предпочитают то, что им знакомо: относительная оценка уверенности через предпочтения уверенности.
Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences
February 3, 2025
Авторы: Vaishnavi Shrivastava, Ananya Kumar, Percy Liang
cs.AI
Аннотация
Языковые модели (LM) должны предоставлять надежные оценки уверенности, чтобы помочь пользователям обнаруживать ошибки в своих выводах и обращаться к человеческим экспертам при необходимости. Просьба языковой модели оценить свою уверенность ("Оцените свою уверенность от 0 до 1.") является естественным способом оценки ее неопределенности. Однако модели испытывают трудности при предоставлении абсолютных оценок уверенности (т.е. оценка уверенности в ответе на вопрос независимо от других вопросов), и грубозернистые оценки, которые они производят, не полезны для оценки правильности их ответов. Мы предлагаем относительную оценку уверенности, где мы сопоставляем вопросы друг с другом и просим модель делать относительные суждения уверенности ("В каком вопросе вы уверены больше в правильном ответе?"). Рассматривая каждый вопрос как "игрока" в серии матчей против других вопросов и предпочтения модели как результаты матчей, мы можем использовать методы агрегации рангов, такие как рейтинг Эло и Брэдли-Терри, чтобы преобразовать предпочтения уверенности модели в оценки уверенности. Мы оцениваем относительную оценку уверенности по сравнению с абсолютной оценкой уверенности и методами уверенности самоконсистентности на пяти передовых языковых моделях - GPT-4, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet и Llama 3.1 405B - на 14 сложных задачах по ответам на вопросы в области STEM, социальных наук и здравого смысла. Наши результаты показывают, что относительная оценка уверенности последовательно предоставляет более надежные оценки уверенности, чем абсолютная оценка уверенности, с средними приростами 3.5% в AUC селективной классификации по сравнению с прямыми методами абсолютной оценки уверенности и 1.7% по сравнению с подходами самоконсистентности на всех моделях и наборах данных.
English
Language models (LMs) should provide reliable confidence estimates to help
users detect mistakes in their outputs and defer to human experts when
necessary. Asking a language model to assess its confidence ("Score your
confidence from 0-1.") is a natural way of evaluating its uncertainty. However,
models struggle to provide absolute assessments of confidence (i.e. judging
confidence in answering a question independent of other questions) and the
coarse-grained scores they produce are not useful for evaluating the
correctness of their answers. We propose relative confidence estimation, where
we match up questions against each other and ask the model to make relative
judgments of confidence ("Which question are you more confident in answering
correctly?"). Treating each question as a "player" in a series of matchups
against other questions and the model's preferences as match outcomes, we can
use rank aggregation methods like Elo rating and Bradley-Terry to translate the
model's confidence preferences into confidence scores. We evaluate relative
confidence estimation against absolute confidence estimation and
self-consistency confidence methods on five state-of-the-art LMs -- GPT-4,
GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet, and Llama 3.1 405B -- across 14
challenging STEM, social science, and commonsense reasoning question answering
tasks. Our results demonstrate that relative confidence estimation consistently
provides more reliable confidence scores than absolute confidence estimation,
with average gains of 3.5% in selective classification AUC over direct absolute
confidence estimation methods and 1.7% over self-consistency approaches across
all models and datasets.Summary
AI-Generated Summary