Обобщенные модели корректности: обучение калиброванных и независимых от модели предсказателей корректности на основе исторических закономерностей
Generalized Correctness Models: Learning Calibrated and Model-Agnostic Correctness Predictors from Historical Patterns
September 29, 2025
Авторы: Hanqi Xiao, Vaidehi Patil, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Аннотация
Генерация точных и калиброванных оценок уверенности критически важна для внедрения крупных языковых моделей (LLM) в высокорисковые или ориентированные на пользователя приложения и остается открытой проблемой. Предыдущие исследования часто рассматривали уверенность как задачу выявления "самопознания" модели, то есть способности LLM оценивать, являются ли её собственные ответы правильными; такой подход неявно предполагает, что существует некоторая привилегированная информация о правильности ответа, доступная самой модели. Однако наши эксперименты показывают, что LLM, пытающаяся предсказать правильность своих собственных выводов, в целом работает не лучше, чем несвязанная LLM. Более того, мы предполагаем, что ключевым фактором в построении "Модели Правильности" (Correctness Model, CM) является доступ к историческим предсказаниям целевой модели. Мы предлагаем несколько методов для внедрения этой исторической информации о правильности, создавая Обобщенную Модель Правильности (Generalized Correctness Model, GCM). Сначала мы показываем, что GCM можно обучать на данных о правильности от многих LLM, и она способна изучать шаблоны для предсказания правильности, применимые к различным наборам данных и моделям. Затем мы используем CM как инструмент для изучения источника способности предсказания правильности и её обобщения, систематически контролируя их обучающие данные и обнаруживая, что формулировка ответа является сильным предиктором правильности. Мы также исследуем альтернативные методы внедрения истории без обучения LLM, обнаруживая, что включение истории в качестве примеров в контексте может помочь улучшить предсказание правильности, а постобработочная калибровка может обеспечить дополнительное снижение ошибки калибровки. Мы оцениваем GCM на основе Qwen3-8B на 5 семействах моделей и наборах данных MMLU и TriviaQA, а также на задаче селективного предсказания, и приходим к выводу, что надежная оценка уверенности LLM является обобщаемым и модельно-независимым навыком, который изучается за счет систематического кодирования истории правильности, а не модельно-специфическим навыком, зависящим от самоанализа.
English
Generating accurate and calibrated confidence estimates is critical for
deploying LLMs in high-stakes or user-facing applications, and remains an open
challenge. Prior research has often framed confidence as a problem of eliciting
a model's "self-knowledge", i.e., the ability of an LLM to judge whether its
own answers are correct; this approach implicitly assumes that there is some
privileged information about the answer's correctness that is accessible to the
model itself. However, our experiments reveal that an LLM attempting to predict
the correctness of its own outputs generally performs no better than an
unrelated LLM. Moreover, we hypothesize that a key factor in building a
"Correctness Model" (CM) is exposure to a target model's historical
predictions. We propose multiple methods to inject this historical correctness
information, creating a Generalized Correctness Model (GCM). We first show that
GCMs can be trained on the correctness data from many LLMs and learn patterns
for correctness prediction applicable across datasets and models. We then use
CMs as a lens for studying the source of correctness prediction ability and its
generalization, systematically controlling their training data and finding that
answer phrasing is a strong predictor for correctness. We further explore
alternative methods of injecting history without training an LLM, finding that
including history as in-context examples can help improve correctness
prediction, and post-hoc calibration can provide complementary reductions in
calibration error. We evaluate GCMs based on Qwen3-8B across 5 model families
and the MMLU and TriviaQA datasets, as well as on a downstream selective
prediction task, finding that reliable LLM confidence estimation is a
generalizable and model-agnostic skill learned by systematically encoding
correctness history rather than a model-specific skill reliant on
self-introspection.