ChatPaper.aiChatPaper

CritiCal: 비판이 LLM의 불확실성 또는 신뢰도 보정에 도움이 될 수 있을까?

CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?

October 28, 2025
저자: Qing Zong, Jiayu Liu, Tianshi Zheng, Chunyang Li, Baixuan Xu, Haochen Shi, Weiqi Wang, Zhaowei Wang, Chunkit Chan, Yangqiu Song
cs.AI

초록

대규모 언어 모델(LLM)의 정확한 신뢰도 캘리브레이션은 위험이 높은 분야에서의 안전한 사용에 매우 중요하며, 명확하게 언어화된 신뢰도는 사용자 신뢰를 향상시킵니다. 참조 신뢰도 표현을 모방하는 기존 방법론들은 정확한 신뢰도 평가에 필요한 추론 과정을 포착하는 데 종종 실패합니다. 본 연구는 자연어 비판을 해결책으로 제안합니다. 이는 정확한 금식(gold) 신뢰도 레이블을 얻기 어렵고 종종 여러 번의 생성이 필요하기 때문에 신뢰도 캘리브레이션에 특히 적합합니다. 본 논문은 자연어 비판이 언어화된 신뢰도를 어떻게 향상시킬 수 있는지 연구하며 다음 두 가지 핵심 질문을 다룹니다: (1) 무엇을 비판할 것인가: 불확실성(질문 중심) 또는 신뢰도(답변 특화)? 분석 결과, 신뢰도는 객관식 과제에, 불확실성은 개방형 시나리오에 더 적합한 것으로 나타났습니다. (2) 어떻게 비판할 것인가: 자기 비판(Self-Critique) 또는 비판 캘리브레이션 훈련(Critique Calibration Training)? 우리는 LLM이 단순한 정확도를 넘어 자신의 신뢰도를 비판하고 최적화할 수 있게 하는 Self-Critique와, 직접적인 수치 최적화를 넘어 자연어 비판을 활용하여 신뢰도 캘리브레이션을 개선하는 새로운 훈련 방법인 CritiCal을 제안합니다. 실험 결과, CritiCal은 Self-Critique 및 다른 경쟁력 있는 기준 모델들을 크게 능가하며, 복잡한 추론 과제에서 교사 모델인 GPT-4o의 성능을 넘어서는 것으로 나타났습니다. CritiCal은 분포 외 설정에서도 강력한 일반화 능력을 보여 LLM의 신뢰성 향상에 기여합니다.
English
Accurate confidence calibration in Large Language Models (LLMs) is critical for safe use in high-stakes domains, where clear verbalized confidence enhances user trust. Traditional methods that mimic reference confidence expressions often fail to capture the reasoning needed for accurate confidence assessment. We propose natural language critiques as a solution, ideally suited for confidence calibration, as precise gold confidence labels are hard to obtain and often require multiple generations. This paper studies how natural language critiques can enhance verbalized confidence, addressing: (1) What to critique: uncertainty (question-focused) or confidence (answer-specific)? Analysis shows confidence suits multiple-choice tasks, while uncertainty excels in open-ended scenarios. (2) How to critique: self-critique or critique calibration training? We propose Self-Critique, enabling LLMs to critique and optimize their confidence beyond mere accuracy, and CritiCal, a novel Critique Calibration training method that leverages natural language critiques to improve confidence calibration, moving beyond direct numerical optimization. Experiments show that CritiCal significantly outperforms Self-Critique and other competitive baselines, even surpassing its teacher model, GPT-4o, in complex reasoning tasks. CritiCal also shows robust generalization in out-of-distribution settings, advancing LLM's reliability.
PDF32December 2, 2025