ChatPaper.aiChatPaper

CritiCal: 批判はLLMの不確実性または信頼度較正に役立つか?

CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?

October 28, 2025
著者: Qing Zong, Jiayu Liu, Tianshi Zheng, Chunyang Li, Baixuan Xu, Haochen Shi, Weiqi Wang, Zhaowei Wang, Chunkit Chan, Yangqiu Song
cs.AI

要旨

大規模言語モデル(LLM)における正確な信頼度較正は、高リスク領域での安全な利用において極めて重要であり、明確な言語化された信頼度はユーザーの信頼を高める。従来の参照用信頼度表現を模倣する手法は、正確な信頼度評価に必要な推論過程を捉えられないことが多い。本論文は自然言語批評を解決策として提案する。正確な正解信頼度ラベルの取得が困難で複数回の生成を要する場合が多いため、自然言語批評は信頼度較正に理想的に適合する。本研究では、自然言語批評が言語化信頼度を強化する方法を検討し、以下の課題に取り組む:(1)何を批評するか:不確実性(質問焦点型)か、信頼度(回答特化型)か?分析の結果、信頼度批評は多肢選択課題に、不確実性批評は自由回答形式課題に有効であることが示された。(2)如何に批評するか:自己批評か、批評較正訓練か?我々は、LLMが単なる正答率を超えて自身の信頼度を批評・最適化するSelf-Critiqueと、自然言語批評を活用して直接的な数値最適化を超える信頼度較正を実現する新規手法CritiCal(批評較正訓練)を提案する。実験により、CritiCalがSelf-Critiqueや他の競合ベースラインを有意に上回り、複雑な推論課題では教師モデルであるGPT-4oをも凌駕することを実証した。CritiCalは分布外設定でも頑健な一般化性能を示し、LLMの信頼性向上に寄与する。
English
Accurate confidence calibration in Large Language Models (LLMs) is critical for safe use in high-stakes domains, where clear verbalized confidence enhances user trust. Traditional methods that mimic reference confidence expressions often fail to capture the reasoning needed for accurate confidence assessment. We propose natural language critiques as a solution, ideally suited for confidence calibration, as precise gold confidence labels are hard to obtain and often require multiple generations. This paper studies how natural language critiques can enhance verbalized confidence, addressing: (1) What to critique: uncertainty (question-focused) or confidence (answer-specific)? Analysis shows confidence suits multiple-choice tasks, while uncertainty excels in open-ended scenarios. (2) How to critique: self-critique or critique calibration training? We propose Self-Critique, enabling LLMs to critique and optimize their confidence beyond mere accuracy, and CritiCal, a novel Critique Calibration training method that leverages natural language critiques to improve confidence calibration, moving beyond direct numerical optimization. Experiments show that CritiCal significantly outperforms Self-Critique and other competitive baselines, even surpassing its teacher model, GPT-4o, in complex reasoning tasks. CritiCal also shows robust generalization in out-of-distribution settings, advancing LLM's reliability.
PDF32December 2, 2025