Modelos de Correção Generalizados: Aprendendo Preditores de Correção Calibrados e Independentes de Modelo a partir de Padrões Históricos
Generalized Correctness Models: Learning Calibrated and Model-Agnostic Correctness Predictors from Historical Patterns
September 29, 2025
Autores: Hanqi Xiao, Vaidehi Patil, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Resumo
Gerar estimativas de confiança precisas e calibradas é crucial para a implantação de LLMs em aplicações de alto risco ou voltadas para o usuário, e continua sendo um desafio em aberto. Pesquisas anteriores frequentemente enquadraram a confiança como um problema de elicitar o "autoconhecimento" de um modelo, ou seja, a capacidade de um LLM de julgar se suas próprias respostas estão corretas; essa abordagem assume implicitamente que há alguma informação privilegiada sobre a correção da resposta que é acessível ao próprio modelo. No entanto, nossos experimentos revelam que um LLM tentando prever a correção de suas próprias saídas geralmente não tem desempenho melhor do que um LLM não relacionado. Além disso, hipotetizamos que um fator-chave na construção de um "Modelo de Correção" (CM) é a exposição às previsões históricas de um modelo alvo. Propomos múltiplos métodos para injetar essa informação histórica de correção, criando um Modelo de Correção Generalizado (GCM). Primeiro, mostramos que GCMs podem ser treinados com dados de correção de muitos LLMs e aprender padrões para previsão de correção aplicáveis em diferentes conjuntos de dados e modelos. Em seguida, usamos CMs como uma lente para estudar a fonte da capacidade de previsão de correção e sua generalização, controlando sistematicamente seus dados de treinamento e descobrindo que a formulação da resposta é um forte preditor de correção. Exploramos ainda métodos alternativos de injetar histórico sem treinar um LLM, descobrindo que incluir histórico como exemplos em contexto pode ajudar a melhorar a previsão de correção, e a calibração pós-hoc pode fornecer reduções complementares no erro de calibração. Avaliamos GCMs baseados no Qwen3-8B em 5 famílias de modelos e nos conjuntos de dados MMLU e TriviaQA, bem como em uma tarefa de previsão seletiva downstream, concluindo que a estimativa confiável de confiança em LLMs é uma habilidade generalizável e independente de modelo, aprendida pela codificação sistemática do histórico de correção, em vez de uma habilidade específica do modelo dependente de auto-introspecção.
English
Generating accurate and calibrated confidence estimates is critical for
deploying LLMs in high-stakes or user-facing applications, and remains an open
challenge. Prior research has often framed confidence as a problem of eliciting
a model's "self-knowledge", i.e., the ability of an LLM to judge whether its
own answers are correct; this approach implicitly assumes that there is some
privileged information about the answer's correctness that is accessible to the
model itself. However, our experiments reveal that an LLM attempting to predict
the correctness of its own outputs generally performs no better than an
unrelated LLM. Moreover, we hypothesize that a key factor in building a
"Correctness Model" (CM) is exposure to a target model's historical
predictions. We propose multiple methods to inject this historical correctness
information, creating a Generalized Correctness Model (GCM). We first show that
GCMs can be trained on the correctness data from many LLMs and learn patterns
for correctness prediction applicable across datasets and models. We then use
CMs as a lens for studying the source of correctness prediction ability and its
generalization, systematically controlling their training data and finding that
answer phrasing is a strong predictor for correctness. We further explore
alternative methods of injecting history without training an LLM, finding that
including history as in-context examples can help improve correctness
prediction, and post-hoc calibration can provide complementary reductions in
calibration error. We evaluate GCMs based on Qwen3-8B across 5 model families
and the MMLU and TriviaQA datasets, as well as on a downstream selective
prediction task, finding that reliable LLM confidence estimation is a
generalizable and model-agnostic skill learned by systematically encoding
correctness history rather than a model-specific skill reliant on
self-introspection.