Modelos de Linguagem de Grande Escala São Excessivamente Confiantes em Suas Próprias Respostas

Resumo

Trabalhos anteriores mostraram que modelos de linguagem de grande escala (LLMs) ajustados por instruções são menos calibrados do que suas contrapartes pré-treinadas de base. No entanto, pouco se sabe sobre o efeito do modelo de chat frequentemente utilizado na calibração de LLMs conversacionais. Neste trabalho, investigamos os mecanismos que impulsionam essa calibração inadequada, separando os efeitos do algoritmo de pós-treinamento e do formato de chat. Descobrimos que, embora o ajuste por instruções prejudique fundamentalmente a calibração, o modelo de chat agrava o problema por meio de um "viés de propriedade" — os modelos são significativamente mais confiantes em suas próprias respostas do que em respostas idênticas fornecidas por um usuário. Experimentos extensivos em seis LLMs recentes de pesos abertos, três benchmarks e três métodos de elicitação de confiança mostram que os modelos atribuem até 26% mais confiança às suas próprias respostas. Aproveitando esse insight, propomos uma estratégia simples em tempo de inferência: enquadrar a resposta do modelo como entrada do usuário durante a elicitação de confiança. Essa abordagem reduz significativamente o excesso de confiança e melhora a calibração em até 26% sem a necessidade de retreinamento, estreitando a lacuna entre os modelos de base e os ajustados por instruções.

English

Prior work has shown that instruction-tuned large language models (LLMs) are less well calibrated than their base pre-trained counterparts. However, little is known about the frequently used chat template's effect on the calibration of conversational LLMs. In this work, we investigate the mechanisms driving this miscalibration by decoupling the effects of the post-training algorithm and the chat format. We find that, while instruction tuning fundamentally harms calibration, the chat template aggravates the issue through an "ownership bias" -- models are significantly more confident in their own answers than in identical answers provided by a user. Extensive experiments across six recent open-weight LLMs, three benchmarks, and three confidence elicitation methods show that models assign up to 26% higher confidence to their own responses. Leveraging this insight, we propose a simple inference-time strategy: framing the model's answer as user input during confidence elicitation. This approach significantly reduces overconfidence and improves calibration by up to 26% without the need for retraining, narrowing the gap between base and instruction-tuned models.