CritiCal: Kann Kritik zur Unsicherheit von LLMs oder zur Kalibrierung des Konfidenzniveaus beitragen?
CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?
October 28, 2025
papers.authors: Qing Zong, Jiayu Liu, Tianshi Zheng, Chunyang Li, Baixuan Xu, Haochen Shi, Weiqi Wang, Zhaowei Wang, Chunkit Chan, Yangqiu Song
cs.AI
papers.abstract
Eine präzise Konfidenzkalibrierung bei Large Language Models (LLMs) ist entscheidend für deren sicheren Einsatz in hochriskanten Bereichen, da klar artikulierte Konfidenz das Nutzervertrauen stärkt. Herkömmliche Methoden, die Referenz-Konfidenzausdrücke nachahmen, erfassen oft nicht die für eine genaue Konfidenzbewertung notwendige Argumentation. Wir schlagen natürliche Sprachkritiken als Lösung vor, die sich ideal für die Konfidenzkalibrierung eignen, da präzise Goldstandard-Konfidenzlabels schwer zu erhalten sind und häufig mehrere Generierungsschritte erfordern. Diese Arbeit untersucht, wie natürliche Sprachkritiken die artikulierte Konfidenz verbessern können, und behandelt: (1) Was kritisiert werden soll: Unsicherheit (fragenfokussiert) oder Konfidenz (antwortspezifisch)? Analysen zeigen, dass Konfidenz für Multiple-Choice-Aufgaben geeignet ist, während Unsicherheit in offenen Szenarien überzeugt. (2) Wie kritisiert werden soll: Selbstkritik oder Kritik-Kalibrierungstraining? Wir stellen Self-Critique vor, das LLMs befähigt, ihre Konfidenz über reine Genauigkeit hinaus zu hinterfragen und zu optimieren, sowie CritiCal, eine neuartige Critique Calibration Trainingsmethode, die natürliche Sprachkritiken nutzt, um die Konfidenzkalibrierung zu verbessern und sich von direkter numerischer Optimierung abhebt. Experimente zeigen, dass CritiCal Self-Critique und andere wettbewerbsfähige Baseline-Methoden signifikant übertrifft und sogar sein Lehrermodell GPT-4o bei komplexen Reasoning-Aufgaben übertrifft. CritiCal zeigt zudem robuste Generalisierung in Out-of-Distribution-Szenarien und trägt so zur Verbesserung der Zuverlässigkeit von LLMs bei.
English
Accurate confidence calibration in Large Language Models (LLMs) is critical
for safe use in high-stakes domains, where clear verbalized confidence enhances
user trust. Traditional methods that mimic reference confidence expressions
often fail to capture the reasoning needed for accurate confidence assessment.
We propose natural language critiques as a solution, ideally suited for
confidence calibration, as precise gold confidence labels are hard to obtain
and often require multiple generations. This paper studies how natural language
critiques can enhance verbalized confidence, addressing: (1) What to critique:
uncertainty (question-focused) or confidence (answer-specific)? Analysis shows
confidence suits multiple-choice tasks, while uncertainty excels in open-ended
scenarios. (2) How to critique: self-critique or critique calibration training?
We propose Self-Critique, enabling LLMs to critique and optimize their
confidence beyond mere accuracy, and CritiCal, a novel Critique Calibration
training method that leverages natural language critiques to improve confidence
calibration, moving beyond direct numerical optimization. Experiments show that
CritiCal significantly outperforms Self-Critique and other competitive
baselines, even surpassing its teacher model, GPT-4o, in complex reasoning
tasks. CritiCal also shows robust generalization in out-of-distribution
settings, advancing LLM's reliability.