ChatPaper.aiChatPaper

Las Llamas Saben lo que los GPT No Muestran: Modelos Suplentes para la Estimación de Confianza

Llamas Know What GPTs Don't Show: Surrogate Models for Confidence Estimation

November 15, 2023
Autores: Vaishnavi Shrivastava, Percy Liang, Ananya Kumar
cs.AI

Resumen

Para mantener la confianza del usuario, los modelos de lenguaje de gran escala (LLMs) deberían indicar baja confianza en los ejemplos donde son incorrectos, en lugar de engañar al usuario. El enfoque estándar para estimar la confianza es utilizar las probabilidades softmax de estos modelos, pero, a noviembre de 2023, los LLMs de vanguardia como GPT-4 y Claude-v1.3 no proporcionan acceso a estas probabilidades. Primero estudiamos la elicitación de confianza de manera lingüística —preguntando a un LLM por su confianza en su respuesta—, lo cual funciona razonablemente bien (80.5% de AUC en GPT-4 promediado en 12 conjuntos de datos de preguntas y respuestas —7% por encima de una línea base aleatoria—), pero deja margen de mejora. Luego exploramos el uso de un modelo de confianza sustituto —utilizando un modelo del cual sí tenemos probabilidades para evaluar la confianza del modelo original en una pregunta dada. Sorprendentemente, aunque estas probabilidades provienen de un modelo diferente y a menudo más débil, este método conduce a un AUC más alto que las confianzas lingüísticas en 9 de los 12 conjuntos de datos. Nuestro mejor método, que combina confianzas lingüísticas y probabilidades del modelo sustituto, proporciona estimaciones de confianza de vanguardia en los 12 conjuntos de datos (84.6% de AUC promedio en GPT-4).
English
To maintain user trust, large language models (LLMs) should signal low confidence on examples where they are incorrect, instead of misleading the user. The standard approach of estimating confidence is to use the softmax probabilities of these models, but as of November 2023, state-of-the-art LLMs such as GPT-4 and Claude-v1.3 do not provide access to these probabilities. We first study eliciting confidence linguistically -- asking an LLM for its confidence in its answer -- which performs reasonably (80.5% AUC on GPT-4 averaged across 12 question-answering datasets -- 7% above a random baseline) but leaves room for improvement. We then explore using a surrogate confidence model -- using a model where we do have probabilities to evaluate the original model's confidence in a given question. Surprisingly, even though these probabilities come from a different and often weaker model, this method leads to higher AUC than linguistic confidences on 9 out of 12 datasets. Our best method composing linguistic confidences and surrogate model probabilities gives state-of-the-art confidence estimates on all 12 datasets (84.6% average AUC on GPT-4).
PDF70December 15, 2024