이진 보상 이상: 언어 모델이 불확실성에 대해 추론하도록 학습시키기
Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty
July 22, 2025
저자: Mehul Damani, Isha Puri, Stewart Slocum, Idan Shenfeld, Leshem Choshen, Yoon Kim, Jacob Andreas
cs.AI
초록
언어 모델(LM)이 강화 학습(RL)을 통해 자연어 "추론 체인"을 생성하도록 훈련될 때, 다양한 어려운 질문 응답 작업에서 성능이 향상됩니다. 오늘날, 추론을 위한 RL의 거의 모든 성공적인 응용은 LM 출력의 정확성을 평가하는 이진 보상 함수를 사용합니다. 이러한 보상 함수는 추측이나 낮은 신뢰도의 출력을 처벌하지 않기 때문에, 종종 교정을 저하시키고 LM이 다른 문제 영역에서 잘못된 응답(또는 "환각")을 생성하는 비율을 증가시키는 의도하지 않은 부작용을 일으킵니다. 본 논문은 정확성과 교정된 신뢰도 추정을 동시에 개선하는 추론 모델 훈련 접근법인 RLCR(Reinforcement Learning with Calibration Rewards)을 설명합니다. RLCR 동안, LM은 추론 후 예측과 수치적 신뢰도 추정치를 생성합니다. 이들은 이진 정확성 점수에 Brier 점수(교정된 예측을 유도하는 신뢰도 추정을 위한 점수 규칙)를 추가한 보상 함수를 최적화하도록 훈련됩니다. 우리는 먼저 이 보상 함수(또는 유사한 유계 적절 점수 규칙을 사용하는 모든 보상 함수)가 정확하고 잘 교정된 예측을 생성하는 모델을 산출함을 증명합니다. 다음으로, 다양한 데이터셋에서 RLCR이 도메인 내 및 도메인 외 평가 모두에서 정확성 손실 없이 교정을 크게 개선하며, 일반적인 RL 훈련과 사후 신뢰도 점수를 할당하도록 훈련된 분류기를 능가함을 보여줍니다. 일반적인 RL은 교정을 해치지만, RLCR은 이를 개선합니다. 마지막으로, 테스트 시 언어화된 신뢰도가 신뢰도 가중치 조정 방법을 통해 정확성과 교정을 개선하는 데 활용될 수 있음을 입증합니다. 우리의 결과는 교정을 명시적으로 최적화함으로써 더 일반적으로 신뢰할 수 있는 추론 모델을 생성할 수 있음을 보여줍니다.
English
When language models (LMs) are trained via reinforcement learning (RL) to
generate natural language "reasoning chains", their performance improves on a
variety of difficult question answering tasks. Today, almost all successful
applications of RL for reasoning use binary reward functions that evaluate the
correctness of LM outputs. Because such reward functions do not penalize
guessing or low-confidence outputs, they often have the unintended side-effect
of degrading calibration and increasing the rate at which LMs generate
incorrect responses (or "hallucinate") in other problem domains. This paper
describes RLCR (Reinforcement Learning with Calibration Rewards), an approach
to training reasoning models that jointly improves accuracy and calibrated
confidence estimation. During RLCR, LMs generate both predictions and numerical
confidence estimates after reasoning. They are trained to optimize a reward
function that augments a binary correctness score with a Brier score -- a
scoring rule for confidence estimates that incentivizes calibrated prediction.
We first prove that this reward function (or any analogous reward function that
uses a bounded, proper scoring rule) yields models whose predictions are both
accurate and well-calibrated. We next show that across diverse datasets, RLCR
substantially improves calibration with no loss in accuracy, on both in-domain
and out-of-domain evaluations -- outperforming both ordinary RL training and
classifiers trained to assign post-hoc confidence scores. While ordinary RL
hurts calibration, RLCR improves it. Finally, we demonstrate that verbalized
confidence can be leveraged at test time to improve accuracy and calibration
via confidence-weighted scaling methods. Our results show that explicitly
optimizing for calibration can produce more generally reliable reasoning
models.