Acreditar ou Não Acreditar no Seu LLM
To Believe or Not to Believe Your LLM
June 4, 2024
Autores: Yasin Abbasi Yadkori, Ilja Kuzborskij, András György, Csaba Szepesvári
cs.AI
Resumo
Exploramos a quantificação de incerteza em modelos de linguagem de grande escala (LLMs), com o objetivo de identificar quando a incerteza nas respostas dadas a uma consulta é elevada. Consideramos simultaneamente tanto as incertezas epistêmicas quanto as aleatórias, onde a primeira decorre da falta de conhecimento sobre a verdade fundamental (como fatos ou a linguagem), e a segunda surge de aleatoriedade irredutível (como múltiplas respostas possíveis). Em particular, derivamos uma métrica baseada na teoria da informação que permite detectar de forma confiável quando apenas a incerteza epistêmica é elevada, caso em que a saída do modelo é não confiável. Essa condição pode ser calculada com base apenas na saída do modelo obtida por meio de um prompt iterativo especial baseado nas respostas anteriores. Tal quantificação, por exemplo, permite detectar alucinações (casos em que a incerteza epistêmica é alta) tanto em respostas únicas quanto em respostas múltiplas. Isso contrasta com muitas estratégias padrão de quantificação de incerteza (como o limiar da log-verossimilhança de uma resposta), onde alucinações no caso de múltiplas respostas não podem ser detectadas. Realizamos uma série de experimentos que demonstram a vantagem de nossa formulação. Além disso, nossas investigações lançam luz sobre como as probabilidades atribuídas a uma determinada saída por um LLM podem ser amplificadas por prompts iterativos, o que pode ser de interesse independente.
English
We explore uncertainty quantification in large language models (LLMs), with
the goal to identify when uncertainty in responses given a query is large. We
simultaneously consider both epistemic and aleatoric uncertainties, where the
former comes from the lack of knowledge about the ground truth (such as about
facts or the language), and the latter comes from irreducible randomness (such
as multiple possible answers). In particular, we derive an
information-theoretic metric that allows to reliably detect when only epistemic
uncertainty is large, in which case the output of the model is unreliable. This
condition can be computed based solely on the output of the model obtained
simply by some special iterative prompting based on the previous responses.
Such quantification, for instance, allows to detect hallucinations (cases when
epistemic uncertainty is high) in both single- and multi-answer responses. This
is in contrast to many standard uncertainty quantification strategies (such as
thresholding the log-likelihood of a response) where hallucinations in the
multi-answer case cannot be detected. We conduct a series of experiments which
demonstrate the advantage of our formulation. Further, our investigations shed
some light on how the probabilities assigned to a given output by an LLM can be
amplified by iterative prompting, which might be of independent interest.