一般化された正解性モデル:履歴パターンから較正済みかつモデル非依存の正解性予測器を学習する
Generalized Correctness Models: Learning Calibrated and Model-Agnostic Correctness Predictors from Historical Patterns
September 29, 2025
著者: Hanqi Xiao, Vaidehi Patil, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal
cs.AI
要旨
正確で較正された信頼度推定を生成することは、LLM(大規模言語モデル)を高リスクまたはユーザー向けアプリケーションに展開する上で極めて重要であり、依然として未解決の課題である。従来の研究では、信頼度をモデルの「自己認識」、すなわちLLMが自身の回答が正しいかどうかを判断する能力として捉えることが多かった。このアプローチは、モデル自体が回答の正しさに関する何らかの特権的な情報にアクセスできるという暗黙の前提に基づいている。しかし、我々の実験では、自身の出力の正しさを予測しようとするLLMは、無関係なLLMと比べて一般的に優れた性能を示さないことが明らかになった。さらに、我々は「正しさモデル」(Correctness Model, CM)を構築する上で重要な要因は、対象モデルの過去の予測に触れることであると仮説を立てた。我々は、この過去の正しさ情報を注入するための複数の方法を提案し、汎用正しさモデル(Generalized Correctness Model, GCM)を構築した。まず、GCMは多くのLLMからの正しさデータに基づいて訓練され、データセットやモデルを超えて適用可能な正しさ予測のパターンを学習できることを示した。次に、CMを正しさ予測能力の源とその一般化を研究するためのレンズとして使用し、訓練データを体系的に制御することで、回答の表現が正しさの強力な予測因子であることを見出した。さらに、LLMを訓練せずに過去の情報を注入する代替方法を探り、過去の情報を文脈内の例として含めることが正しさ予測の改善に役立つこと、および事後較正が較正誤差を補完的に低減できることを発見した。我々は、Qwen3-8Bに基づくGCMを5つのモデルファミリーおよびMMLUとTriviaQAデータセット、および下流の選択的予測タスクで評価し、信頼できるLLMの信頼度推定は、自己内省に依存するモデル固有のスキルではなく、正しさの履歴を体系的にエンコードすることで学習される一般化可能でモデルに依存しないスキルであることを見出した。
English
Generating accurate and calibrated confidence estimates is critical for
deploying LLMs in high-stakes or user-facing applications, and remains an open
challenge. Prior research has often framed confidence as a problem of eliciting
a model's "self-knowledge", i.e., the ability of an LLM to judge whether its
own answers are correct; this approach implicitly assumes that there is some
privileged information about the answer's correctness that is accessible to the
model itself. However, our experiments reveal that an LLM attempting to predict
the correctness of its own outputs generally performs no better than an
unrelated LLM. Moreover, we hypothesize that a key factor in building a
"Correctness Model" (CM) is exposure to a target model's historical
predictions. We propose multiple methods to inject this historical correctness
information, creating a Generalized Correctness Model (GCM). We first show that
GCMs can be trained on the correctness data from many LLMs and learn patterns
for correctness prediction applicable across datasets and models. We then use
CMs as a lens for studying the source of correctness prediction ability and its
generalization, systematically controlling their training data and finding that
answer phrasing is a strong predictor for correctness. We further explore
alternative methods of injecting history without training an LLM, finding that
including history as in-context examples can help improve correctness
prediction, and post-hoc calibration can provide complementary reductions in
calibration error. We evaluate GCMs based on Qwen3-8B across 5 model families
and the MMLU and TriviaQA datasets, as well as on a downstream selective
prediction task, finding that reliable LLM confidence estimation is a
generalizable and model-agnostic skill learned by systematically encoding
correctness history rather than a model-specific skill reliant on
self-introspection.