CritiCal: Le critiche possono aiutare la calibrazione dell'incertezza o della confidenza nei LLM?
CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?
October 28, 2025
Autori: Qing Zong, Jiayu Liu, Tianshi Zheng, Chunyang Li, Baixuan Xu, Haochen Shi, Weiqi Wang, Zhaowei Wang, Chunkit Chan, Yangqiu Song
cs.AI
Abstract
Una calibrazione accurata della confidenza nei Large Language Model (LLM) è fondamentale per un utilizzo sicuro in domini ad alto rischio, dove una chiara verbalizzazione della confidenza aumenta la fiducia dell'utente. I metodi tradizionali che imitano le espressioni di confidenza di riferimento spesso non colgono il ragionamento necessario per una valutazione accurata della confidenza. Proponiamo le critiche in linguaggio naturale come soluzione, ideale per la calibrazione della confidenza, poiché è difficile ottenere etichette auree di confidenza precise e spesso richiedono multiple generazioni. Questo articolo studia come le critiche in linguaggio naturale possano migliorare la confidenza verbalizzata, affrontando: (1) Cosa criticare: l'incertezza (centrata sulla domanda) o la confidenza (specifica della risposta)? L'analisi mostra che la confidenza è adatta per compiti a scelta multipla, mentre l'incertezza eccelle in scenari a risposta aperta. (2) Come criticare: autocritica o addestramento di calibrazione tramite critica? Proponiamo Self-Critique, che consente agli LLM di criticare e ottimizzare la propria confidenza andando oltre la mera accuratezza, e CritiCal, un innovativo metodo di addestramento per la Calibrazione tramite Critica che sfrutta le critiche in linguaggio naturale per migliorare la calibrazione della confidenza, superando l'ottimizzazione numerica diretta. Gli esperimenti mostrano che CritiCal supera significativamente Self-Critique e altri baseline competitivi, superando persino il suo modello insegnante, GPT-4o, in compiti di ragionamento complesso. CritiCal mostra anche una robusta generalizzazione in contesti fuori distribuzione, avanzando l'affidabilità degli LLM.
English
Accurate confidence calibration in Large Language Models (LLMs) is critical
for safe use in high-stakes domains, where clear verbalized confidence enhances
user trust. Traditional methods that mimic reference confidence expressions
often fail to capture the reasoning needed for accurate confidence assessment.
We propose natural language critiques as a solution, ideally suited for
confidence calibration, as precise gold confidence labels are hard to obtain
and often require multiple generations. This paper studies how natural language
critiques can enhance verbalized confidence, addressing: (1) What to critique:
uncertainty (question-focused) or confidence (answer-specific)? Analysis shows
confidence suits multiple-choice tasks, while uncertainty excels in open-ended
scenarios. (2) How to critique: self-critique or critique calibration training?
We propose Self-Critique, enabling LLMs to critique and optimize their
confidence beyond mere accuracy, and CritiCal, a novel Critique Calibration
training method that leverages natural language critiques to improve confidence
calibration, moving beyond direct numerical optimization. Experiments show that
CritiCal significantly outperforms Self-Critique and other competitive
baselines, even surpassing its teacher model, GPT-4o, in complex reasoning
tasks. CritiCal also shows robust generalization in out-of-distribution
settings, advancing LLM's reliability.