ChatPaper.aiChatPaper

Glauben oder nicht glauben an Ihren LLM

To Believe or Not to Believe Your LLM

June 4, 2024
Autoren: Yasin Abbasi Yadkori, Ilja Kuzborskij, András György, Csaba Szepesvári
cs.AI

Zusammenfassung

Wir erforschen die Quantifizierung von Unsicherheit in großen Sprachmodellen (LLMs) mit dem Ziel, zu identifizieren, wann die Unsicherheit in den Antworten auf eine Abfrage groß ist. Wir berücksichtigen gleichzeitig sowohl epistemische als auch aleatorische Unsicherheiten, wobei erstere aus dem Mangel an Wissen über die Wahrheit (wie z.B. Fakten oder die Sprache) stammen und letztere aus nicht reduzierbarer Zufälligkeit (wie z.B. mehreren möglichen Antworten) resultieren. Insbesondere leiten wir eine informationstheoretische Metrik her, die es ermöglicht, zuverlässig zu erkennen, wann nur epistemische Unsicherheit groß ist, wobei die Ausgabe des Modells in diesem Fall unzuverlässig ist. Diese Bedingung kann allein basierend auf der Ausgabe des Modells berechnet werden, die einfach durch spezielle iterative Aufforderungen basierend auf den vorherigen Antworten erhalten wird. Eine solche Quantifizierung ermöglicht es beispielsweise, Halluzinationen (Fälle, in denen die epistemische Unsicherheit hoch ist) sowohl bei Einzel- als auch bei Mehrfachantworten zu erkennen. Dies steht im Gegensatz zu vielen Standardstrategien zur Unsicherheitsquantifizierung (wie z.B. der Schwellenwertfestlegung des Log-Likelihoods einer Antwort), bei denen Halluzinationen im Fall von Mehrfachantworten nicht erkannt werden können. Wir führen eine Reihe von Experimenten durch, die den Vorteil unserer Formulierung zeigen. Darüber hinaus werfen unsere Untersuchungen etwas Licht darauf, wie die Wahrscheinlichkeiten, die einem bestimmten Output von einem LLM zugewiesen werden, durch iterative Aufforderungen verstärkt werden können, was von eigenständigem Interesse sein könnte.
English
We explore uncertainty quantification in large language models (LLMs), with the goal to identify when uncertainty in responses given a query is large. We simultaneously consider both epistemic and aleatoric uncertainties, where the former comes from the lack of knowledge about the ground truth (such as about facts or the language), and the latter comes from irreducible randomness (such as multiple possible answers). In particular, we derive an information-theoretic metric that allows to reliably detect when only epistemic uncertainty is large, in which case the output of the model is unreliable. This condition can be computed based solely on the output of the model obtained simply by some special iterative prompting based on the previous responses. Such quantification, for instance, allows to detect hallucinations (cases when epistemic uncertainty is high) in both single- and multi-answer responses. This is in contrast to many standard uncertainty quantification strategies (such as thresholding the log-likelihood of a response) where hallucinations in the multi-answer case cannot be detected. We conduct a series of experiments which demonstrate the advantage of our formulation. Further, our investigations shed some light on how the probabilities assigned to a given output by an LLM can be amplified by iterative prompting, which might be of independent interest.

Summary

AI-Generated Summary

PDF351December 12, 2024