일반화된 정확성 모델: 역사적 패턴을 통해 보정된 모델-불가지론적 정확성 예측자 학습
Generalized Correctness Models: Learning Calibrated and Model-Agnostic Correctness Predictors from Historical Patterns
September 29, 2025
저자: Hanqi Xiao, Vaidehi Patil, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal
cs.AI
초록
정확하고 보정된 신뢰도 추정치를 생성하는 것은 LLM(Large Language Model)을 고위험 또는 사용자 대면 애플리케이션에 배포하는 데 있어 핵심적이며, 여전히 해결되지 않은 과제로 남아 있다. 기존 연구에서는 신뢰도를 모델의 "자기 지식"을 이끌어내는 문제로 간주해 왔는데, 이는 LLM이 자신의 답변이 정확한지를 판단할 수 있는 능력을 의미한다. 이러한 접근은 모델 자체가 답변의 정확성에 대한 특권적인 정보에 접근할 수 있다는 암묵적인 가정에 기반을 두고 있다. 그러나 우리의 실험 결과에 따르면, LLM이 자신의 출력의 정확성을 예측하려고 시도할 때 일반적으로 관련 없는 다른 LLM보다 더 나은 성능을 보이지 않는다. 더 나아가, 우리는 "정확성 모델"(Correctness Model, CM)을 구축하는 데 있어 핵심적인 요소가 대상 모델의 과거 예측에 대한 노출이라고 가정한다. 우리는 이러한 과거 정확성 정보를 주입하는 여러 방법을 제안하여 일반화된 정확성 모델(Generalized Correctness Model, GCM)을 생성한다. 먼저, GCM이 여러 LLM의 정확성 데이터를 기반으로 훈련될 수 있으며, 데이터셋과 모델에 걸쳐 적용 가능한 정확성 예측 패턴을 학습할 수 있음을 보여준다. 그런 다음, CM을 통해 정확성 예측 능력의 원천과 그 일반화를 연구하는 데 초점을 맞추며, 훈련 데이터를 체계적으로 통제한 결과 답변의 표현 방식이 정확성을 예측하는 강력한 지표임을 발견한다. 또한, LLM을 훈련하지 않고도 역사를 주입하는 대체 방법을 탐구하며, 역사를 문맥 내 예시로 포함하는 것이 정확성 예측을 개선하는 데 도움이 될 수 있고, 사후 보정이 보정 오류를 상호 보완적으로 줄일 수 있음을 확인한다. 우리는 Qwen3-8B를 기반으로 한 GCM을 5개의 모델 패밀리와 MMLU 및 TriviaQA 데이터셋에서 평가하고, 하류 선택적 예측 작업에서도 평가하여, 신뢰할 수 있는 LLM 신뢰도 추정이 자기 성찰에 의존하는 모델 특정 기술이 아니라 체계적으로 정확성 역사를 인코딩하여 학습된 일반화 가능하고 모델에 구애받지 않는 기술임을 발견한다.
English
Generating accurate and calibrated confidence estimates is critical for
deploying LLMs in high-stakes or user-facing applications, and remains an open
challenge. Prior research has often framed confidence as a problem of eliciting
a model's "self-knowledge", i.e., the ability of an LLM to judge whether its
own answers are correct; this approach implicitly assumes that there is some
privileged information about the answer's correctness that is accessible to the
model itself. However, our experiments reveal that an LLM attempting to predict
the correctness of its own outputs generally performs no better than an
unrelated LLM. Moreover, we hypothesize that a key factor in building a
"Correctness Model" (CM) is exposure to a target model's historical
predictions. We propose multiple methods to inject this historical correctness
information, creating a Generalized Correctness Model (GCM). We first show that
GCMs can be trained on the correctness data from many LLMs and learn patterns
for correctness prediction applicable across datasets and models. We then use
CMs as a lens for studying the source of correctness prediction ability and its
generalization, systematically controlling their training data and finding that
answer phrasing is a strong predictor for correctness. We further explore
alternative methods of injecting history without training an LLM, finding that
including history as in-context examples can help improve correctness
prediction, and post-hoc calibration can provide complementary reductions in
calibration error. We evaluate GCMs based on Qwen3-8B across 5 model families
and the MMLU and TriviaQA datasets, as well as on a downstream selective
prediction task, finding that reliable LLM confidence estimation is a
generalizable and model-agnostic skill learned by systematically encoding
correctness history rather than a model-specific skill reliant on
self-introspection.