CrítiCal: As Críticas Podem Ajudar na Calibração da Incerteza ou Confiança de LLMs?

Resumo

A calibração precisa da confiança em Modelos de Linguagem de Grande Escala (LLMs) é crítica para o uso seguro em domínios de alto risco, onde uma confiança verbalizada clara aumenta a confiança do utilizador. Os métodos tradicionais que imitam expressões de confiança de referência frequentemente falham em capturar o raciocínio necessário para uma avaliação precisa da confiança. Propomos as críticas em linguagem natural como uma solução, idealmente adequadas para a calibração de confiança, uma vez que rótulos de confiança "gold" precisos são difíceis de obter e frequentemente exigem múltiplas gerações. Este artigo estuda como as críticas em linguagem natural podem melhorar a confiança verbalizada, abordando: (1) O que criticar: incerteza (focada na pergunta) ou confiança (específica da resposta)? A análise mostra que a confiança é adequada para tarefas de escolha múltipla, enquanto a incerteza se destaca em cenários de resposta aberta. (2) Como criticar: auto-crítica ou treino de calibração por crítica? Propomos a Auto-Crítica, que permite aos LLMs criticar e otimizar a sua confiança para além da mera precisão, e o CritiCal, um novo método de treino de Calibração por Crítica que aproveita as críticas em linguagem natural para melhorar a calibração da confiança, indo além da otimização numérica direta. Experiências mostram que o CritiCal supera significativamente a Auto-Crítica e outras linhas de base competitivas, ultrapassando mesmo o seu modelo professor, o GPT-4o, em tarefas de raciocínio complexo. O CritiCal também mostra uma generalização robusta em configurações fora da distribuição, avançando a fiabilidade dos LLMs.

English

Accurate confidence calibration in Large Language Models (LLMs) is critical for safe use in high-stakes domains, where clear verbalized confidence enhances user trust. Traditional methods that mimic reference confidence expressions often fail to capture the reasoning needed for accurate confidence assessment. We propose natural language critiques as a solution, ideally suited for confidence calibration, as precise gold confidence labels are hard to obtain and often require multiple generations. This paper studies how natural language critiques can enhance verbalized confidence, addressing: (1) What to critique: uncertainty (question-focused) or confidence (answer-specific)? Analysis shows confidence suits multiple-choice tasks, while uncertainty excels in open-ended scenarios. (2) How to critique: self-critique or critique calibration training? We propose Self-Critique, enabling LLMs to critique and optimize their confidence beyond mere accuracy, and CritiCal, a novel Critique Calibration training method that leverages natural language critiques to improve confidence calibration, moving beyond direct numerical optimization. Experiments show that CritiCal significantly outperforms Self-Critique and other competitive baselines, even surpassing its teacher model, GPT-4o, in complex reasoning tasks. CritiCal also shows robust generalization in out-of-distribution settings, advancing LLM's reliability.

CrítiCal: As Críticas Podem Ajudar na Calibração da Incerteza ou Confiança de LLMs?

CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?

Resumo

Support