Modelos de Correção Generalizados: Aprendendo Preditores de Correção Calibrados e Independentes de Modelo a partir de Padrões Históricos

Resumo

Gerar estimativas de confiança precisas e calibradas é crucial para a implantação de LLMs em aplicações de alto risco ou voltadas para o usuário, e continua sendo um desafio em aberto. Pesquisas anteriores frequentemente enquadraram a confiança como um problema de elicitar o "autoconhecimento" de um modelo, ou seja, a capacidade de um LLM de julgar se suas próprias respostas estão corretas; essa abordagem assume implicitamente que há alguma informação privilegiada sobre a correção da resposta que é acessível ao próprio modelo. No entanto, nossos experimentos revelam que um LLM tentando prever a correção de suas próprias saídas geralmente não tem desempenho melhor do que um LLM não relacionado. Além disso, hipotetizamos que um fator-chave na construção de um "Modelo de Correção" (CM) é a exposição às previsões históricas de um modelo alvo. Propomos múltiplos métodos para injetar essa informação histórica de correção, criando um Modelo de Correção Generalizado (GCM). Primeiro, mostramos que GCMs podem ser treinados com dados de correção de muitos LLMs e aprender padrões para previsão de correção aplicáveis em diferentes conjuntos de dados e modelos. Em seguida, usamos CMs como uma lente para estudar a fonte da capacidade de previsão de correção e sua generalização, controlando sistematicamente seus dados de treinamento e descobrindo que a formulação da resposta é um forte preditor de correção. Exploramos ainda métodos alternativos de injetar histórico sem treinar um LLM, descobrindo que incluir histórico como exemplos em contexto pode ajudar a melhorar a previsão de correção, e a calibração pós-hoc pode fornecer reduções complementares no erro de calibração. Avaliamos GCMs baseados no Qwen3-8B em 5 famílias de modelos e nos conjuntos de dados MMLU e TriviaQA, bem como em uma tarefa de previsão seletiva downstream, concluindo que a estimativa confiável de confiança em LLMs é uma habilidade generalizável e independente de modelo, aprendida pela codificação sistemática do histórico de correção, em vez de uma habilidade específica do modelo dependente de auto-introspecção.

English

Generating accurate and calibrated confidence estimates is critical for deploying LLMs in high-stakes or user-facing applications, and remains an open challenge. Prior research has often framed confidence as a problem of eliciting a model's "self-knowledge", i.e., the ability of an LLM to judge whether its own answers are correct; this approach implicitly assumes that there is some privileged information about the answer's correctness that is accessible to the model itself. However, our experiments reveal that an LLM attempting to predict the correctness of its own outputs generally performs no better than an unrelated LLM. Moreover, we hypothesize that a key factor in building a "Correctness Model" (CM) is exposure to a target model's historical predictions. We propose multiple methods to inject this historical correctness information, creating a Generalized Correctness Model (GCM). We first show that GCMs can be trained on the correctness data from many LLMs and learn patterns for correctness prediction applicable across datasets and models. We then use CMs as a lens for studying the source of correctness prediction ability and its generalization, systematically controlling their training data and finding that answer phrasing is a strong predictor for correctness. We further explore alternative methods of injecting history without training an LLM, finding that including history as in-context examples can help improve correctness prediction, and post-hoc calibration can provide complementary reductions in calibration error. We evaluate GCMs based on Qwen3-8B across 5 model families and the MMLU and TriviaQA datasets, as well as on a downstream selective prediction task, finding that reliable LLM confidence estimation is a generalizable and model-agnostic skill learned by systematically encoding correctness history rather than a model-specific skill reliant on self-introspection.

Modelos de Correção Generalizados: Aprendendo Preditores de Correção Calibrados e Independentes de Modelo a partir de Padrões Históricos

Generalized Correctness Models: Learning Calibrated and Model-Agnostic Correctness Predictors from Historical Patterns

Resumo

Support