Gegeneraliseerde Correctheidsmodellen: Het Leren van Gecalibreerde en Model-Onafhankelijke Correctheidsvoorspellers op Basis van Historische Patronen
Generalized Correctness Models: Learning Calibrated and Model-Agnostic Correctness Predictors from Historical Patterns
September 29, 2025
Auteurs: Hanqi Xiao, Vaidehi Patil, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Samenvatting
Het genereren van nauwkeurige en gekalibreerde betrouwbaarheidsschattingen is cruciaal voor het inzetten van LLM's in hoogrisico- of gebruikersgerichte toepassingen, en blijft een open uitdaging. Eerder onderzoek heeft betrouwbaarheid vaak benaderd als een probleem van het oproepen van het "zelfbewustzijn" van een model, d.w.z. het vermogen van een LLM om te beoordelen of zijn eigen antwoorden correct zijn; deze benadering gaat er impliciet van uit dat er bepaalde geprivilegieerde informatie over de juistheid van het antwoord beschikbaar is voor het model zelf. Onze experimenten laten echter zien dat een LLM die probeert de juistheid van zijn eigen uitvoer te voorspellen, over het algemeen niet beter presteert dan een ongerelateerde LLM. Bovendien stellen we de hypothese dat een sleutelfactor bij het bouwen van een "Correctheidsmodel" (CM) blootstelling aan de historische voorspellingen van een doelmodel is. We stellen meerdere methoden voor om deze historische correctheidsinformatie in te brengen, waardoor een Gegeneraliseerd Correctheidsmodel (GCM) ontstaat. We tonen eerst aan dat GCM's kunnen worden getraind op de correctheidsgegevens van veel LLM's en patronen kunnen leren voor correctheidsvoorspelling die toepasbaar zijn over verschillende datasets en modellen. Vervolgens gebruiken we CM's als een lens om de bron van het correctheidsvoorspellingsvermogen en de generalisatie ervan te bestuderen, waarbij we systematisch hun trainingsdata controleren en vaststellen dat de formulering van het antwoord een sterke voorspeller is voor correctheid. We onderzoeken verder alternatieve methoden om geschiedenis in te brengen zonder een LLM te trainen, en ontdekken dat het opnemen van geschiedenis als in-context voorbeelden kan helpen bij het verbeteren van correctheidsvoorspelling, en dat post-hoc kalibratie aanvullende verminderingen in kalibratiefouten kan bieden. We evalueren GCM's gebaseerd op Qwen3-8B over 5 modelfamilies en de MMLU- en TriviaQA-datasets, evenals op een downstream selectieve voorspellingstaak, en concluderen dat betrouwbare LLM-betrouwbaarheidsschatting een generaliseerbare en model-agnostische vaardigheid is die wordt geleerd door systematisch correctheidsgeschiedenis te coderen, in plaats van een modelspecifieke vaardigheid die afhankelijk is van zelfintrospectie.
English
Generating accurate and calibrated confidence estimates is critical for
deploying LLMs in high-stakes or user-facing applications, and remains an open
challenge. Prior research has often framed confidence as a problem of eliciting
a model's "self-knowledge", i.e., the ability of an LLM to judge whether its
own answers are correct; this approach implicitly assumes that there is some
privileged information about the answer's correctness that is accessible to the
model itself. However, our experiments reveal that an LLM attempting to predict
the correctness of its own outputs generally performs no better than an
unrelated LLM. Moreover, we hypothesize that a key factor in building a
"Correctness Model" (CM) is exposure to a target model's historical
predictions. We propose multiple methods to inject this historical correctness
information, creating a Generalized Correctness Model (GCM). We first show that
GCMs can be trained on the correctness data from many LLMs and learn patterns
for correctness prediction applicable across datasets and models. We then use
CMs as a lens for studying the source of correctness prediction ability and its
generalization, systematically controlling their training data and finding that
answer phrasing is a strong predictor for correctness. We further explore
alternative methods of injecting history without training an LLM, finding that
including history as in-context examples can help improve correctness
prediction, and post-hoc calibration can provide complementary reductions in
calibration error. We evaluate GCMs based on Qwen3-8B across 5 model families
and the MMLU and TriviaQA datasets, as well as on a downstream selective
prediction task, finding that reliable LLM confidence estimation is a
generalizable and model-agnostic skill learned by systematically encoding
correctness history rather than a model-specific skill reliant on
self-introspection.