Modelli di Correttezza Generalizzati: Apprendimento di Predittori di Correttezza Calibrati e Indipendenti dal Modello Basati su Modelli Storici
Generalized Correctness Models: Learning Calibrated and Model-Agnostic Correctness Predictors from Historical Patterns
September 29, 2025
Autori: Hanqi Xiao, Vaidehi Patil, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Abstract
Generare stime di confidenza accurate e calibrate è fondamentale per il dispiegamento di LLM in applicazioni ad alto rischio o rivolte agli utenti, e rimane una sfida aperta. La ricerca precedente ha spesso inquadrato la confidenza come un problema di elicitazione dell'"autoconoscenza" del modello, ovvero la capacità di un LLM di giudicare se le proprie risposte sono corrette; questo approccio presuppone implicitamente che ci sia qualche informazione privilegiata sulla correttezza della risposta accessibile al modello stesso. Tuttavia, i nostri esperimenti rivelano che un LLM che tenta di prevedere la correttezza dei propri output generalmente non performa meglio di un LLM non correlato. Inoltre, ipotizziamo che un fattore chiave nella costruzione di un "Modello di Correttezza" (CM) sia l'esposizione alle previsioni storiche di un modello target. Proponiamo diversi metodi per iniettare questa informazione storica sulla correttezza, creando un Modello di Correttezza Generalizzato (GCM). Mostriamo innanzitutto che i GCM possono essere addestrati sui dati di correttezza di molti LLM e apprendere schemi per la previsione della correttezza applicabili a diversi dataset e modelli. Utilizziamo poi i CM come lente per studiare la fonte della capacità di previsione della correttezza e la sua generalizzazione, controllando sistematicamente i loro dati di addestramento e scoprendo che la formulazione della risposta è un forte predittore della correttezza. Esploriamo ulteriormente metodi alternativi di iniezione della storia senza addestrare un LLM, scoprendo che includere la storia come esempi in-context può aiutare a migliorare la previsione della correttezza, e che la calibrazione post-hoc può fornire riduzioni complementari dell'errore di calibrazione. Valutiamo i GCM basati su Qwen3-8B su 5 famiglie di modelli e sui dataset MMLU e TriviaQA, nonché su un compito di previsione selettiva a valle, scoprendo che una stima affidabile della confidenza degli LLM è un'abilità generalizzabile e agnostica rispetto al modello, appresa codificando sistematicamente la storia della correttezza piuttosto che un'abilità specifica del modello basata sull'introspezione.
English
Generating accurate and calibrated confidence estimates is critical for
deploying LLMs in high-stakes or user-facing applications, and remains an open
challenge. Prior research has often framed confidence as a problem of eliciting
a model's "self-knowledge", i.e., the ability of an LLM to judge whether its
own answers are correct; this approach implicitly assumes that there is some
privileged information about the answer's correctness that is accessible to the
model itself. However, our experiments reveal that an LLM attempting to predict
the correctness of its own outputs generally performs no better than an
unrelated LLM. Moreover, we hypothesize that a key factor in building a
"Correctness Model" (CM) is exposure to a target model's historical
predictions. We propose multiple methods to inject this historical correctness
information, creating a Generalized Correctness Model (GCM). We first show that
GCMs can be trained on the correctness data from many LLMs and learn patterns
for correctness prediction applicable across datasets and models. We then use
CMs as a lens for studying the source of correctness prediction ability and its
generalization, systematically controlling their training data and finding that
answer phrasing is a strong predictor for correctness. We further explore
alternative methods of injecting history without training an LLM, finding that
including history as in-context examples can help improve correctness
prediction, and post-hoc calibration can provide complementary reductions in
calibration error. We evaluate GCMs based on Qwen3-8B across 5 model families
and the MMLU and TriviaQA datasets, as well as on a downstream selective
prediction task, finding that reliable LLM confidence estimation is a
generalizable and model-agnostic skill learned by systematically encoding
correctness history rather than a model-specific skill reliant on
self-introspection.