Los modelos de lenguaje prefieren lo que conocen: Estimación de confianza relativa a través de preferencias de confianza.
Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences
February 3, 2025
Autores: Vaishnavi Shrivastava, Ananya Kumar, Percy Liang
cs.AI
Resumen
Los modelos de lenguaje (LMs) deben proporcionar estimaciones de confianza confiables para ayudar a los usuarios a detectar errores en sus salidas y recurrir a expertos humanos cuando sea necesario. Pedir a un modelo de lenguaje que evalúe su confianza ("Califica tu confianza de 0 a 1.") es una forma natural de evaluar su incertidumbre. Sin embargo, los modelos tienen dificultades para proporcionar evaluaciones absolutas de confianza (es decir, juzgar la confianza en responder una pregunta de forma independiente de otras preguntas) y las puntuaciones de grano grueso que producen no son útiles para evaluar la corrección de sus respuestas. Proponemos la estimación relativa de confianza, donde enfrentamos preguntas entre sí y pedimos al modelo que realice juicios relativos de confianza ("¿En qué pregunta tienes más confianza en responder correctamente?"). Tratando cada pregunta como un "jugador" en una serie de enfrentamientos contra otras preguntas y las preferencias del modelo como resultados de los enfrentamientos, podemos utilizar métodos de agregación de rangos como la calificación Elo y Bradley-Terry para traducir las preferencias de confianza del modelo en puntuaciones de confianza. Evaluamos la estimación relativa de confianza frente a la estimación absoluta de confianza y los métodos de confianza de autoconsistencia en cinco LMs de última generación: GPT-4, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet y Llama 3.1 405B, en 14 desafiantes tareas de respuesta a preguntas de razonamiento STEM, ciencias sociales y de sentido común. Nuestros resultados demuestran que la estimación relativa de confianza proporciona consistentemente puntuaciones de confianza más confiables que la estimación absoluta de confianza, con ganancias promedio del 3.5% en el AUC de clasificación selectiva sobre los métodos de estimación de confianza absoluta directa y del 1.7% sobre los enfoques de autoconsistencia en todos los modelos y conjuntos de datos.
English
Language models (LMs) should provide reliable confidence estimates to help
users detect mistakes in their outputs and defer to human experts when
necessary. Asking a language model to assess its confidence ("Score your
confidence from 0-1.") is a natural way of evaluating its uncertainty. However,
models struggle to provide absolute assessments of confidence (i.e. judging
confidence in answering a question independent of other questions) and the
coarse-grained scores they produce are not useful for evaluating the
correctness of their answers. We propose relative confidence estimation, where
we match up questions against each other and ask the model to make relative
judgments of confidence ("Which question are you more confident in answering
correctly?"). Treating each question as a "player" in a series of matchups
against other questions and the model's preferences as match outcomes, we can
use rank aggregation methods like Elo rating and Bradley-Terry to translate the
model's confidence preferences into confidence scores. We evaluate relative
confidence estimation against absolute confidence estimation and
self-consistency confidence methods on five state-of-the-art LMs -- GPT-4,
GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet, and Llama 3.1 405B -- across 14
challenging STEM, social science, and commonsense reasoning question answering
tasks. Our results demonstrate that relative confidence estimation consistently
provides more reliable confidence scores than absolute confidence estimation,
with average gains of 3.5% in selective classification AUC over direct absolute
confidence estimation methods and 1.7% over self-consistency approaches across
all models and datasets.Summary
AI-Generated Summary