КритикА: Может ли критика помочь в калибровке неопределенности или уверенности больших языковых моделей?
CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?
October 28, 2025
Авторы: Qing Zong, Jiayu Liu, Tianshi Zheng, Chunyang Li, Baixuan Xu, Haochen Shi, Weiqi Wang, Zhaowei Wang, Chunkit Chan, Yangqiu Song
cs.AI
Аннотация
Точная калибровка уверенности в больших языковых моделях (LLM) критически важна для их безопасного использования в областях с высокими рисками, где четко вербализованная уверенность повышает доверие пользователей. Традиционные методы, имитирующие эталонные выражения уверенности, часто не способны уловить рассуждения, необходимые для точной оценки уверенности. Мы предлагаем использовать критические высказывания на естественном языке в качестве решения, идеально подходящего для калибровки уверенности, поскольку точные эталонные метки уверенности трудно получить и они часто требуют множественных генераций. В данной статье исследуется, как критические высказывания на естественном языке могут улучшить вербализованную уверенность, рассматривая следующие вопросы: (1) *Что критиковать:* неопределенность (сфокусированную на вопросе) или уверенность (специфичную для ответа)? Анализ показывает, что уверенность подходит для задач с множественным выбором, в то время как неопределенность превосходит в открытых сценариях. (2) *Как критиковать:* самокритику или обучение калибровке с помощью критики? Мы предлагаем метод Self-Critique, позволяющий LLM критиковать и оптимизировать свою уверенность выходя за рамки простой точности, а также CritiCal — новый метод обучения калибровке с помощью критики, который использует критические высказывания на естественном языке для улучшения калибровки уверенности, выходя за рамки прямой численной оптимизации. Эксперименты показывают, что CritiCal значительно превосходит Self-Critique и другие конкурентные базовые методы, даже превосходя свою учительскую модель, GPT-4o, в задачах сложного логического вывода. CritiCal также демонстрирует robustную обобщающую способность в условиях сдвига распределения данных, способствуя повышению надежности LLM.
English
Accurate confidence calibration in Large Language Models (LLMs) is critical
for safe use in high-stakes domains, where clear verbalized confidence enhances
user trust. Traditional methods that mimic reference confidence expressions
often fail to capture the reasoning needed for accurate confidence assessment.
We propose natural language critiques as a solution, ideally suited for
confidence calibration, as precise gold confidence labels are hard to obtain
and often require multiple generations. This paper studies how natural language
critiques can enhance verbalized confidence, addressing: (1) What to critique:
uncertainty (question-focused) or confidence (answer-specific)? Analysis shows
confidence suits multiple-choice tasks, while uncertainty excels in open-ended
scenarios. (2) How to critique: self-critique or critique calibration training?
We propose Self-Critique, enabling LLMs to critique and optimize their
confidence beyond mere accuracy, and CritiCal, a novel Critique Calibration
training method that leverages natural language critiques to improve confidence
calibration, moving beyond direct numerical optimization. Experiments show that
CritiCal significantly outperforms Self-Critique and other competitive
baselines, even surpassing its teacher model, GPT-4o, in complex reasoning
tasks. CritiCal also shows robust generalization in out-of-distribution
settings, advancing LLM's reliability.