Большие языковые модели чрезмерно уверены в собственных ответах

Аннотация

Предыдущие работы показали, что большие языковые модели (LLM), настроенные на выполнение инструкций, калиброваны хуже, чем их базовые предобученные аналоги. Однако мало что известно о влиянии часто используемого шаблона чата на калибровку диалоговых LLM. В данной работе мы исследуем механизмы, вызывающие эту расстройку калибровки, разделяя эффекты алгоритма пост-обучения и формата чата. Мы обнаруживаем, что хотя настройка на инструкции фундаментально ухудшает калибровку, шаблон чата усугубляет проблему через «предвзятость принадлежности» — модели значительно более уверены в своих собственных ответах, чем в идентичных ответах, предоставленных пользователем. Обширные эксперименты с шестью недавними LLM с открытыми весами, тремя бенчмарками и тремя методами извлечения уверенности показывают, что модели присваивают до 26% более высокую уверенность своим собственным ответам. Используя это понимание, мы предлагаем простую стратегию на этапе инференса: представление ответа модели как ввода пользователя во время извлечения уверенности. Этот подход значительно снижает излишнюю самоуверенность и улучшает калибровку до 26% без необходимости переобучения, сокращая разрыв между базовыми и настроенными на инструкции моделями.

English

Prior work has shown that instruction-tuned large language models (LLMs) are less well calibrated than their base pre-trained counterparts. However, little is known about the frequently used chat template's effect on the calibration of conversational LLMs. In this work, we investigate the mechanisms driving this miscalibration by decoupling the effects of the post-training algorithm and the chat format. We find that, while instruction tuning fundamentally harms calibration, the chat template aggravates the issue through an "ownership bias" -- models are significantly more confident in their own answers than in identical answers provided by a user. Extensive experiments across six recent open-weight LLMs, three benchmarks, and three confidence elicitation methods show that models assign up to 26% higher confidence to their own responses. Leveraging this insight, we propose a simple inference-time strategy: framing the model's answer as user input during confidence elicitation. This approach significantly reduces overconfidence and improves calibration by up to 26% without the need for retraining, narrowing the gap between base and instruction-tuned models.