Schätzung der Halluzinationsrate von generativer KI
Estimating the Hallucination Rate of Generative AI
June 11, 2024
papers.authors: Andrew Jesson, Nicolas Beltran-Velez, Quentin Chu, Sweta Karlekar, Jannik Kossen, Yarin Gal, John P. Cunningham, David Blei
cs.AI
papers.abstract
Diese Arbeit befasst sich mit der Schätzung der Halluzinationsrate für das kontextbezogene Lernen (ICL) mit Generative AI. Im ICL wird ein bedingtes generatives Modell (CGM) mit einem Datensatz versehen und aufgefordert, eine Vorhersage basierend auf diesem Datensatz zu treffen. Die bayesianische Interpretation des ICL geht davon aus, dass das CGM eine a-posteriori-prädiktive Verteilung über einem unbekannten bayesianischen Modell eines latenten Parameters und Daten berechnet. Aus dieser Perspektive definieren wir eine Halluzination als eine generierte Vorhersage, die unter dem wahren latenten Parameter eine geringe Wahrscheinlichkeit aufweist. Wir entwickeln eine neue Methode, die ein ICL-Problem - das heißt ein CGM, einen Datensatz und eine Vorhersagefrage - annimmt und die Wahrscheinlichkeit schätzt, dass ein CGM eine Halluzination generiert. Unsere Methode erfordert lediglich das Generieren von Abfragen und Antworten aus dem Modell und die Auswertung der Antwort-Log-Wahrscheinlichkeit. Wir evaluieren unsere Methode empirisch an synthetischen Regressions- und natürlichsprachlichen ICL-Aufgaben unter Verwendung großer Sprachmodelle.
English
This work is about estimating the hallucination rate for in-context learning
(ICL) with Generative AI. In ICL, a conditional generative model (CGM) is
prompted with a dataset and asked to make a prediction based on that dataset.
The Bayesian interpretation of ICL assumes that the CGM is calculating a
posterior predictive distribution over an unknown Bayesian model of a latent
parameter and data. With this perspective, we define a hallucination
as a generated prediction that has low-probability under the true latent
parameter. We develop a new method that takes an ICL problem -- that is, a CGM,
a dataset, and a prediction question -- and estimates the probability that a
CGM will generate a hallucination. Our method only requires generating queries
and responses from the model and evaluating its response log probability. We
empirically evaluate our method on synthetic regression and natural language
ICL tasks using large language models.