CritiCal: Kan kritiek helpen bij de onzekerheids- of betrouwbaarheidskalibratie van grote taalmodellen?
CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?
October 28, 2025
Auteurs: Qing Zong, Jiayu Liu, Tianshi Zheng, Chunyang Li, Baixuan Xu, Haochen Shi, Weiqi Wang, Zhaowei Wang, Chunkit Chan, Yangqiu Song
cs.AI
Samenvatting
Nauwkeurige betrouwbaarheidscalibratie in Large Language Models (LLM's) is cruciaal voor veilig gebruik in hoog-risicodomeinen, waarbij duidelijke verbaal uitgedrukte betrouwbaarheid het gebruikersvertrouwen vergroot. Traditionele methoden die referentie-betrouwbaarheidsuitdrukkingen nabootsen, slagen er vaak niet in de redenering te vatten die nodig is voor een nauwkeurige betrouwbaarheidsinschatting. Wij stellen natuurlijke-taalkritieken voor als oplossing, die bij uitstek geschikt zijn voor betrouwbaarheidscalibratie, omdat precieze gouden betrouwbaarheidslabels moeilijk te verkrijgen zijn en vaak meerdere generaties vereisen. Deze paper onderzoekt hoe natuurlijke-taalkritieken de verbaal uitgedrukte betrouwbaarheid kunnen verbeteren, en behandelt: (1) Wat te bekritiseren: onzekerheid (vraaggericht) of betrouwbaarheid (antwoordspecifiek)? Analyse toont aan dat betrouwbaarheid geschikt is voor multiple-choice taken, terwijl onzekerheid uitblinkt in open-eindscenario's. (2) Hoe te bekritiseren: zelfkritiek of kritiekcalibratietraining? Wij stellen Self-Critique voor, waarmee LLM's hun eigen betrouwbaarheid kunnen bekritiseren en optimaliseren voorbij loutere nauwkeurigheid, en CritiCal, een nieuwe Critique Calibration-trainingsmethode die natuurlijke-taalkritieken benut om de betrouwbaarheidscalibratie te verbeteren, voorbij directe numerieke optimalisatie. Experimenten tonen aan dat CritiCal Self-Critique en andere competitieve baseline-methoden significant overtreft, en zelfs zijn leraarmodel, GPT-4o, overstijgt in complexe redeneertaken. CritiCal toont ook robuuste generalisatie in out-of-distribution settings, wat de betrouwbaarheid van LLM's vooruithelpt.
English
Accurate confidence calibration in Large Language Models (LLMs) is critical
for safe use in high-stakes domains, where clear verbalized confidence enhances
user trust. Traditional methods that mimic reference confidence expressions
often fail to capture the reasoning needed for accurate confidence assessment.
We propose natural language critiques as a solution, ideally suited for
confidence calibration, as precise gold confidence labels are hard to obtain
and often require multiple generations. This paper studies how natural language
critiques can enhance verbalized confidence, addressing: (1) What to critique:
uncertainty (question-focused) or confidence (answer-specific)? Analysis shows
confidence suits multiple-choice tasks, while uncertainty excels in open-ended
scenarios. (2) How to critique: self-critique or critique calibration training?
We propose Self-Critique, enabling LLMs to critique and optimize their
confidence beyond mere accuracy, and CritiCal, a novel Critique Calibration
training method that leverages natural language critiques to improve confidence
calibration, moving beyond direct numerical optimization. Experiments show that
CritiCal significantly outperforms Self-Critique and other competitive
baselines, even surpassing its teacher model, GPT-4o, in complex reasoning
tasks. CritiCal also shows robust generalization in out-of-distribution
settings, advancing LLM's reliability.