ChatPaper.aiChatPaper

CritiCal : Les critiques peuvent-elles aider à la calibration de l'incertitude ou de la confiance des LLM ?

CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?

October 28, 2025
papers.authors: Qing Zong, Jiayu Liu, Tianshi Zheng, Chunyang Li, Baixuan Xu, Haochen Shi, Weiqi Wang, Zhaowei Wang, Chunkit Chan, Yangqiu Song
cs.AI

papers.abstract

Une calibration précise de la confiance dans les grands modèles de langage (LLM) est cruciale pour leur utilisation sécurisée dans des domaines à haut risque, où une confiance verbalisée claire renforce la confiance des utilisateurs. Les méthodes traditionnelles qui imitent des expressions de confiance de référence échouent souvent à capturer le raisonnement nécessaire à une évaluation précise de la confiance. Nous proposons les critiques en langage naturel comme solution, idéalement adaptées à la calibration de la confiance, car les étiquettes de confiance de référence précises sont difficiles à obtenir et nécessitent souvent de multiples générations. Cet article étudie comment les critiques en langage naturel peuvent améliorer la confiance verbalisée, en abordant : (1) *Que critiquer* : l'incertitude (centrée sur la question) ou la confiance (spécifique à la réponse) ? L'analyse montre que la confiance convient aux tâches à choix multiples, tandis que l'incertitude excelle dans les scénarios ouverts. (2) *Comment critiquer* : l'auto-critique ou l'entraînement par calibration des critiques ? Nous proposons l'Auto-Critique (Self-Critique), permettant aux LLM de critiquer et d'optimiser leur confiance au-delà de la simple exactitude, et CritiCal, une nouvelle méthode d'entraînement par Calibration des Critiques (Critique Calibration) qui exploite les critiques en langage naturel pour améliorer la calibration de la confiance, dépassant l'optimisation numérique directe. Les expériences montrent que CritiCal surpasse significativement l'Auto-Critique et d'autres bases de référence compétitives, dépassant même son modèle enseignant, GPT-4o, dans des tâches de raisonnement complexe. CritiCal démontre également une généralisation robuste dans des contextes hors distribution, faisant progresser la fiabilité des LLM.
English
Accurate confidence calibration in Large Language Models (LLMs) is critical for safe use in high-stakes domains, where clear verbalized confidence enhances user trust. Traditional methods that mimic reference confidence expressions often fail to capture the reasoning needed for accurate confidence assessment. We propose natural language critiques as a solution, ideally suited for confidence calibration, as precise gold confidence labels are hard to obtain and often require multiple generations. This paper studies how natural language critiques can enhance verbalized confidence, addressing: (1) What to critique: uncertainty (question-focused) or confidence (answer-specific)? Analysis shows confidence suits multiple-choice tasks, while uncertainty excels in open-ended scenarios. (2) How to critique: self-critique or critique calibration training? We propose Self-Critique, enabling LLMs to critique and optimize their confidence beyond mere accuracy, and CritiCal, a novel Critique Calibration training method that leverages natural language critiques to improve confidence calibration, moving beyond direct numerical optimization. Experiments show that CritiCal significantly outperforms Self-Critique and other competitive baselines, even surpassing its teacher model, GPT-4o, in complex reasoning tasks. CritiCal also shows robust generalization in out-of-distribution settings, advancing LLM's reliability.
PDF32December 2, 2025