Modèles de correction généralisés : Apprentissage de prédicteurs de correction calibrés et agnostiques au modèle à partir de motifs historiques
Generalized Correctness Models: Learning Calibrated and Model-Agnostic Correctness Predictors from Historical Patterns
September 29, 2025
papers.authors: Hanqi Xiao, Vaidehi Patil, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal
cs.AI
papers.abstract
La génération d'estimations de confiance précises et calibrées est essentielle pour le déploiement des LLM (modèles de langage de grande taille) dans des applications à enjeux élevés ou destinées aux utilisateurs, et reste un défi ouvert. Les recherches antérieures ont souvent abordé la confiance comme un problème d'élicitation de la « connaissance de soi » d'un modèle, c'est-à-dire la capacité d'un LLM à juger si ses propres réponses sont correctes ; cette approche suppose implicitement qu'il existe une information privilégiée sur la justesse de la réponse, accessible au modèle lui-même. Cependant, nos expériences révèlent qu'un LLM tentant de prédire la justesse de ses propres sorties ne performe généralement pas mieux qu'un LLM non lié. De plus, nous émettons l'hypothèse qu'un facteur clé dans la construction d'un « Modèle de Justesse » (Correctness Model, CM) est l'exposition aux prédictions historiques d'un modèle cible. Nous proposons plusieurs méthodes pour injecter cette information historique de justesse, créant ainsi un Modèle de Justesse Généralisé (Generalized Correctness Model, GCM). Nous montrons d'abord que les GCM peuvent être entraînés sur des données de justesse provenant de nombreux LLM et apprendre des motifs de prédiction de justesse applicables à travers différents jeux de données et modèles. Nous utilisons ensuite les CM comme un prisme pour étudier la source de la capacité de prédiction de justesse et sa généralisation, en contrôlant systématiquement leurs données d'entraînement et en constatant que la formulation des réponses est un prédicteur fort de la justesse. Nous explorons également des méthodes alternatives d'injection d'historique sans entraîner un LLM, en constatant que l'inclusion de l'historique comme exemples en contexte peut améliorer la prédiction de justesse, et qu'une calibration post-hoc peut fournir des réductions complémentaires de l'erreur de calibration. Nous évaluons les GCM basés sur Qwen3-8B à travers 5 familles de modèles ainsi que les jeux de données MMLU et TriviaQA, ainsi que sur une tâche de prédiction sélective en aval, en concluant que l'estimation fiable de la confiance des LLM est une compétence généralisable et indépendante du modèle, apprise par l'encodage systématique de l'historique de justesse, plutôt qu'une compétence spécifique au modèle reposant sur l'introspection.
English
Generating accurate and calibrated confidence estimates is critical for
deploying LLMs in high-stakes or user-facing applications, and remains an open
challenge. Prior research has often framed confidence as a problem of eliciting
a model's "self-knowledge", i.e., the ability of an LLM to judge whether its
own answers are correct; this approach implicitly assumes that there is some
privileged information about the answer's correctness that is accessible to the
model itself. However, our experiments reveal that an LLM attempting to predict
the correctness of its own outputs generally performs no better than an
unrelated LLM. Moreover, we hypothesize that a key factor in building a
"Correctness Model" (CM) is exposure to a target model's historical
predictions. We propose multiple methods to inject this historical correctness
information, creating a Generalized Correctness Model (GCM). We first show that
GCMs can be trained on the correctness data from many LLMs and learn patterns
for correctness prediction applicable across datasets and models. We then use
CMs as a lens for studying the source of correctness prediction ability and its
generalization, systematically controlling their training data and finding that
answer phrasing is a strong predictor for correctness. We further explore
alternative methods of injecting history without training an LLM, finding that
including history as in-context examples can help improve correctness
prediction, and post-hoc calibration can provide complementary reductions in
calibration error. We evaluate GCMs based on Qwen3-8B across 5 model families
and the MMLU and TriviaQA datasets, as well as on a downstream selective
prediction task, finding that reliable LLM confidence estimation is a
generalizable and model-agnostic skill learned by systematically encoding
correctness history rather than a model-specific skill reliant on
self-introspection.