Modelos de Corrección Generalizada: Aprendizaje de Predictores de Corrección Calibrados y Agnósticos al Modelo a partir de Patrones Históricos
Generalized Correctness Models: Learning Calibrated and Model-Agnostic Correctness Predictors from Historical Patterns
September 29, 2025
Autores: Hanqi Xiao, Vaidehi Patil, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Resumen
Generar estimaciones de confianza precisas y calibradas es fundamental para implementar modelos de lenguaje grandes (LLMs, por sus siglas en inglés) en aplicaciones de alto riesgo o dirigidas a usuarios, y sigue siendo un desafío abierto. Investigaciones previas a menudo han enmarcado la confianza como un problema de elicitar el "autoconocimiento" de un modelo, es decir, la capacidad de un LLM para juzgar si sus propias respuestas son correctas; este enfoque asume implícitamente que existe cierta información privilegiada sobre la corrección de la respuesta que es accesible para el modelo mismo. Sin embargo, nuestros experimentos revelan que un LLM que intenta predecir la corrección de sus propias salidas generalmente no tiene un desempeño mejor que un LLM no relacionado. Además, planteamos la hipótesis de que un factor clave en la construcción de un "Modelo de Corrección" (CM, por sus siglas en inglés) es la exposición a las predicciones históricas de un modelo objetivo. Proponemos múltiples métodos para inyectar esta información histórica de corrección, creando un Modelo Generalizado de Corrección (GCM, por sus siglas en inglés). Primero demostramos que los GCMs pueden entrenarse con datos de corrección de muchos LLMs y aprender patrones para la predicción de corrección aplicables a través de conjuntos de datos y modelos. Luego, utilizamos los CMs como una lente para estudiar la fuente de la capacidad de predicción de corrección y su generalización, controlando sistemáticamente sus datos de entrenamiento y encontrando que la redacción de la respuesta es un predictor fuerte de la corrección. Además, exploramos métodos alternativos de inyectar historia sin entrenar un LLM, encontrando que incluir la historia como ejemplos en contexto puede ayudar a mejorar la predicción de corrección, y que la calibración post-hoc puede proporcionar reducciones complementarias en el error de calibración. Evaluamos los GCMs basados en Qwen3-8B en 5 familias de modelos y en los conjuntos de datos MMLU y TriviaQA, así como en una tarea de predicción selectiva descendente, encontrando que la estimación confiable de la confianza en LLMs es una habilidad generalizable y agnóstica al modelo, aprendida mediante la codificación sistemática de la historia de corrección, en lugar de una habilidad específica del modelo que dependa de la introspección.
English
Generating accurate and calibrated confidence estimates is critical for
deploying LLMs in high-stakes or user-facing applications, and remains an open
challenge. Prior research has often framed confidence as a problem of eliciting
a model's "self-knowledge", i.e., the ability of an LLM to judge whether its
own answers are correct; this approach implicitly assumes that there is some
privileged information about the answer's correctness that is accessible to the
model itself. However, our experiments reveal that an LLM attempting to predict
the correctness of its own outputs generally performs no better than an
unrelated LLM. Moreover, we hypothesize that a key factor in building a
"Correctness Model" (CM) is exposure to a target model's historical
predictions. We propose multiple methods to inject this historical correctness
information, creating a Generalized Correctness Model (GCM). We first show that
GCMs can be trained on the correctness data from many LLMs and learn patterns
for correctness prediction applicable across datasets and models. We then use
CMs as a lens for studying the source of correctness prediction ability and its
generalization, systematically controlling their training data and finding that
answer phrasing is a strong predictor for correctness. We further explore
alternative methods of injecting history without training an LLM, finding that
including history as in-context examples can help improve correctness
prediction, and post-hoc calibration can provide complementary reductions in
calibration error. We evaluate GCMs based on Qwen3-8B across 5 model families
and the MMLU and TriviaQA datasets, as well as on a downstream selective
prediction task, finding that reliable LLM confidence estimation is a
generalizable and model-agnostic skill learned by systematically encoding
correctness history rather than a model-specific skill reliant on
self-introspection.