ChatPaper.aiChatPaper

CritiCal: ¿Pueden las Críticas Ayudar en la Calibración de la Incertidumbre o la Confianza de los LLM?

CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?

October 28, 2025
Autores: Qing Zong, Jiayu Liu, Tianshi Zheng, Chunyang Li, Baixuan Xu, Haochen Shi, Weiqi Wang, Zhaowei Wang, Chunkit Chan, Yangqiu Song
cs.AI

Resumen

La calibración precisa de la confianza en los Modelos de Lenguaje a Gran Escala (LLMs) es crucial para su uso seguro en dominios de alto riesgo, donde una confianza verbalizada clara mejora la confianza del usuario. Los métodos tradicionales que imitan expresiones de confianza de referencia a menudo no capturan el razonamiento necesario para una evaluación precisa de la confianza. Proponemos las críticas en lenguaje natural como solución, idealmente adecuadas para la calibración de confianza, ya que las etiquetas de confianza oro precisas son difíciles de obtener y a menudo requieren múltiples generaciones. Este artículo estudia cómo las críticas en lenguaje natural pueden mejorar la confianza verbalizada, abordando: (1) Qué criticar: ¿incertidumbre (centrada en la pregunta) o confianza (específica de la respuesta)? El análisis muestra que la confianza se adapta a tareas de opción múltiple, mientras que la incertidumbre sobresale en escenarios de respuesta abierta. (2) Cómo criticar: ¿autocrítica o entrenamiento de calibración mediante crítica? Proponemos la Autocrítica, que permite a los LLMs criticar y optimizar su confianza más allá de la mera precisión, y CritiCal, un novedoso método de entrenamiento de Calibración por Crítica que aprovecha las críticas en lenguaje natural para mejorar la calibración de confianza, avanzando más allá de la optimización numérica directa. Los experimentos muestran que CritiCal supera significativamente a la Autocrítica y a otros baselines competitivos, incluso superando a su modelo maestro, GPT-4o, en tareas de razonamiento complejo. CritiCal también muestra una generalización robusta en entornos fuera de distribución, avanzando en la fiabilidad de los LLMs.
English
Accurate confidence calibration in Large Language Models (LLMs) is critical for safe use in high-stakes domains, where clear verbalized confidence enhances user trust. Traditional methods that mimic reference confidence expressions often fail to capture the reasoning needed for accurate confidence assessment. We propose natural language critiques as a solution, ideally suited for confidence calibration, as precise gold confidence labels are hard to obtain and often require multiple generations. This paper studies how natural language critiques can enhance verbalized confidence, addressing: (1) What to critique: uncertainty (question-focused) or confidence (answer-specific)? Analysis shows confidence suits multiple-choice tasks, while uncertainty excels in open-ended scenarios. (2) How to critique: self-critique or critique calibration training? We propose Self-Critique, enabling LLMs to critique and optimize their confidence beyond mere accuracy, and CritiCal, a novel Critique Calibration training method that leverages natural language critiques to improve confidence calibration, moving beyond direct numerical optimization. Experiments show that CritiCal significantly outperforms Self-Critique and other competitive baselines, even surpassing its teacher model, GPT-4o, in complex reasoning tasks. CritiCal also shows robust generalization in out-of-distribution settings, advancing LLM's reliability.
PDF32December 2, 2025