Estimación de la Confianza en Modelos de Lenguaje de Gran Escala mediante Acceso de Caja Negra
Large Language Model Confidence Estimation via Black-Box Access
June 1, 2024
Autores: Tejaswini Pedapati, Amit Dhurandhar, Soumya Ghosh, Soham Dan, Prasanna Sattigeri
cs.AI
Resumen
Estimar la incertidumbre o la confianza en las respuestas de un modelo puede ser significativo para evaluar la confianza no solo en las respuestas, sino también en el modelo en su conjunto. En este artículo, exploramos el problema de estimar la confianza en las respuestas de modelos de lenguaje grandes (LLMs) con acceso únicamente de caja negra o mediante consultas. Proponemos un marco simple y extensible en el que diseñamos características novedosas y entrenamos un modelo interpretable (específicamente, regresión logística) sobre estas características para estimar la confianza. Demostramos empíricamente que nuestro marco simple es efectivo para estimar la confianza de flan-ul2, llama-13b y mistral-7b, superando consistentemente los enfoques existentes de estimación de confianza de caja negra en conjuntos de datos de referencia como TriviaQA, SQuAD, CoQA y Natural Questions, en algunos casos incluso en más de un 10% (en AUROC). Además, nuestro enfoque interpretable proporciona información sobre las características que son predictivas de la confianza, lo que lleva al descubrimiento interesante y útil de que los modelos de confianza construidos para un LLM se generalizan sin entrenamiento previo (zero-shot) a otros en un conjunto de datos dado.
English
Estimating uncertainty or confidence in the responses of a model can be
significant in evaluating trust not only in the responses, but also in the
model as a whole. In this paper, we explore the problem of estimating
confidence for responses of large language models (LLMs) with simply black-box
or query access to them. We propose a simple and extensible framework where, we
engineer novel features and train a (interpretable) model (viz. logistic
regression) on these features to estimate the confidence. We empirically
demonstrate that our simple framework is effective in estimating confidence of
flan-ul2, llama-13b and mistral-7b with it consistently outperforming existing
black-box confidence estimation approaches on benchmark datasets such as
TriviaQA, SQuAD, CoQA and Natural Questions by even over 10% (on AUROC) in
some cases. Additionally, our interpretable approach provides insight into
features that are predictive of confidence, leading to the interesting and
useful discovery that our confidence models built for one LLM generalize
zero-shot across others on a given dataset.Summary
AI-Generated Summary