Generalisierte Korrektheitsmodelle: Lernen kalibrierter und modellagnostischer Korrektheitsprädiktoren aus historischen Mustern
Generalized Correctness Models: Learning Calibrated and Model-Agnostic Correctness Predictors from Historical Patterns
September 29, 2025
papers.authors: Hanqi Xiao, Vaidehi Patil, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal
cs.AI
papers.abstract
Die Erzeugung präziser und kalibrierter Konfidenzschätzungen ist entscheidend für den Einsatz von LLMs (Large Language Models) in hochriskanten oder nutzerorientierten Anwendungen und bleibt eine offene Herausforderung. Bisherige Forschungen haben Konfidenz oft als Problem der Etablierung von „Selbsterkenntnis“ eines Modells betrachtet, d. h. der Fähigkeit eines LLMs, zu beurteilen, ob seine eigenen Antworten korrekt sind. Dieser Ansatz geht implizit davon aus, dass es privilegierte Informationen über die Korrektheit der Antwort gibt, die dem Modell selbst zugänglich sind. Unsere Experimente zeigen jedoch, dass ein LLM, das versucht, die Korrektheit seiner eigenen Ausgaben vorherzusagen, im Allgemeinen nicht besser abschneidet als ein unabhängiges LLM. Darüber hinaus stellen wir die Hypothese auf, dass ein Schlüsselfaktor für den Aufbau eines „Korrektheitsmodells“ (Correctness Model, CM) die Kenntnis der historischen Vorhersagen eines Zielmodells ist. Wir schlagen mehrere Methoden vor, um diese historische Korrektheitsinformation einzubringen und ein generalisiertes Korrektheitsmodell (Generalized Correctness Model, GCM) zu erstellen. Zunächst zeigen wir, dass GCMs anhand von Korrektheitsdaten vieler LLMs trainiert werden können und Muster für die Korrektheitsvorhersage lernen, die über Datensätze und Modelle hinweg anwendbar sind. Anschließend nutzen wir CMs als Linse, um die Quelle der Korrektheitsvorhersagefähigkeit und deren Generalisierung zu untersuchen, indem wir systematisch ihre Trainingsdaten kontrollieren und feststellen, dass die Formulierung der Antwort ein starker Prädiktor für die Korrektheit ist. Wir untersuchen weiterhin alternative Methoden zur Einbringung von Historie ohne das Training eines LLMs und finden, dass die Einbeziehung von Historie als In-Kontext-Beispiele die Korrektheitsvorhersage verbessern kann und eine nachträgliche Kalibrierung komplementäre Reduktionen des Kalibrierungsfehlers bieten kann. Wir bewerten GCMs basierend auf Qwen3-8B über 5 Modellfamilien sowie die Datensätze MMLU und TriviaQA sowie eine nachgelagerte selektive Vorhersageaufgabe und stellen fest, dass zuverlässige Konfidenzschätzung bei LLMs eine generalisierbare und modellagnostische Fähigkeit ist, die durch systematische Kodierung von Korrektheitshistorie erlernt wird, und nicht eine modellspezifische Fähigkeit, die auf Selbstreflexion beruht.
English
Generating accurate and calibrated confidence estimates is critical for
deploying LLMs in high-stakes or user-facing applications, and remains an open
challenge. Prior research has often framed confidence as a problem of eliciting
a model's "self-knowledge", i.e., the ability of an LLM to judge whether its
own answers are correct; this approach implicitly assumes that there is some
privileged information about the answer's correctness that is accessible to the
model itself. However, our experiments reveal that an LLM attempting to predict
the correctness of its own outputs generally performs no better than an
unrelated LLM. Moreover, we hypothesize that a key factor in building a
"Correctness Model" (CM) is exposure to a target model's historical
predictions. We propose multiple methods to inject this historical correctness
information, creating a Generalized Correctness Model (GCM). We first show that
GCMs can be trained on the correctness data from many LLMs and learn patterns
for correctness prediction applicable across datasets and models. We then use
CMs as a lens for studying the source of correctness prediction ability and its
generalization, systematically controlling their training data and finding that
answer phrasing is a strong predictor for correctness. We further explore
alternative methods of injecting history without training an LLM, finding that
including history as in-context examples can help improve correctness
prediction, and post-hoc calibration can provide complementary reductions in
calibration error. We evaluate GCMs based on Qwen3-8B across 5 model families
and the MMLU and TriviaQA datasets, as well as on a downstream selective
prediction task, finding that reliable LLM confidence estimation is a
generalizable and model-agnostic skill learned by systematically encoding
correctness history rather than a model-specific skill reliant on
self-introspection.