Modèles de correction généralisés : Apprentissage de prédicteurs de correction calibrés et agnostiques au modèle à partir de motifs historiques

papers.abstract

La génération d'estimations de confiance précises et calibrées est essentielle pour le déploiement des LLM (modèles de langage de grande taille) dans des applications à enjeux élevés ou destinées aux utilisateurs, et reste un défi ouvert. Les recherches antérieures ont souvent abordé la confiance comme un problème d'élicitation de la « connaissance de soi » d'un modèle, c'est-à-dire la capacité d'un LLM à juger si ses propres réponses sont correctes ; cette approche suppose implicitement qu'il existe une information privilégiée sur la justesse de la réponse, accessible au modèle lui-même. Cependant, nos expériences révèlent qu'un LLM tentant de prédire la justesse de ses propres sorties ne performe généralement pas mieux qu'un LLM non lié. De plus, nous émettons l'hypothèse qu'un facteur clé dans la construction d'un « Modèle de Justesse » (Correctness Model, CM) est l'exposition aux prédictions historiques d'un modèle cible. Nous proposons plusieurs méthodes pour injecter cette information historique de justesse, créant ainsi un Modèle de Justesse Généralisé (Generalized Correctness Model, GCM). Nous montrons d'abord que les GCM peuvent être entraînés sur des données de justesse provenant de nombreux LLM et apprendre des motifs de prédiction de justesse applicables à travers différents jeux de données et modèles. Nous utilisons ensuite les CM comme un prisme pour étudier la source de la capacité de prédiction de justesse et sa généralisation, en contrôlant systématiquement leurs données d'entraînement et en constatant que la formulation des réponses est un prédicteur fort de la justesse. Nous explorons également des méthodes alternatives d'injection d'historique sans entraîner un LLM, en constatant que l'inclusion de l'historique comme exemples en contexte peut améliorer la prédiction de justesse, et qu'une calibration post-hoc peut fournir des réductions complémentaires de l'erreur de calibration. Nous évaluons les GCM basés sur Qwen3-8B à travers 5 familles de modèles ainsi que les jeux de données MMLU et TriviaQA, ainsi que sur une tâche de prédiction sélective en aval, en concluant que l'estimation fiable de la confiance des LLM est une compétence généralisable et indépendante du modèle, apprise par l'encodage systématique de l'historique de justesse, plutôt qu'une compétence spécifique au modèle reposant sur l'introspection.

English

Generating accurate and calibrated confidence estimates is critical for deploying LLMs in high-stakes or user-facing applications, and remains an open challenge. Prior research has often framed confidence as a problem of eliciting a model's "self-knowledge", i.e., the ability of an LLM to judge whether its own answers are correct; this approach implicitly assumes that there is some privileged information about the answer's correctness that is accessible to the model itself. However, our experiments reveal that an LLM attempting to predict the correctness of its own outputs generally performs no better than an unrelated LLM. Moreover, we hypothesize that a key factor in building a "Correctness Model" (CM) is exposure to a target model's historical predictions. We propose multiple methods to inject this historical correctness information, creating a Generalized Correctness Model (GCM). We first show that GCMs can be trained on the correctness data from many LLMs and learn patterns for correctness prediction applicable across datasets and models. We then use CMs as a lens for studying the source of correctness prediction ability and its generalization, systematically controlling their training data and finding that answer phrasing is a strong predictor for correctness. We further explore alternative methods of injecting history without training an LLM, finding that including history as in-context examples can help improve correctness prediction, and post-hoc calibration can provide complementary reductions in calibration error. We evaluate GCMs based on Qwen3-8B across 5 model families and the MMLU and TriviaQA datasets, as well as on a downstream selective prediction task, finding that reliable LLM confidence estimation is a generalizable and model-agnostic skill learned by systematically encoding correctness history rather than a model-specific skill reliant on self-introspection.

Modèles de correction généralisés : Apprentissage de prédicteurs de correction calibrés et agnostiques au modèle à partir de motifs historiques

Generalized Correctness Models: Learning Calibrated and Model-Agnostic Correctness Predictors from Historical Patterns

papers.abstract

Support