Подавление чрезмерной уверенности в LLMs: калибровка вознаграждения в RLHF.
Taming Overconfidence in LLMs: Reward Calibration in RLHF
October 13, 2024
Авторы: Jixuan Leng, Chengsong Huang, Banghua Zhu, Jiaxin Huang
cs.AI
Аннотация
Калибровка языковой модели относится к соответствию между уверенностью модели и фактическим выполнением ее ответов. В то время как предыдущие исследования указывают на явление чрезмерной уверенности в больших языковых моделях (LLM) и показывают, что LLM, обученные с использованием обучения с подкреплением на основе обратной связи от человека (RLHF), обладают чрезмерной уверенностью с более выраженной вероятностью вывода, в данном исследовании мы выявляем, что RLHF склонен приводить модели к выражению вербализованной чрезмерной уверенности в собственных ответах. Мы исследуем основную причину этой чрезмерной уверенности и демонстрируем, что модели вознаграждения, используемые для оптимизации ближайшей политики (PPO), проявляют врожденные предвзятости в пользу высоких оценок уверенности независимо от фактического качества ответов. Основываясь на этом понимании, мы предлагаем два варианта PPO: PPO-M: PPO с калибровкой моделирования вознаграждения и PPO-C: PPO с калибровкой расчета вознаграждения. PPO-M интегрирует явные оценки уверенности в обучение модели вознаграждения, что калибрует модели вознаграждения для лучшего улавливания соответствия между качеством ответа и выраженной уверенностью. PPO-C корректирует оценку вознаграждения во время PPO на основе разницы между текущим вознаграждением и скользящим средним прошлых вознаграждений. Оба подхода PPO-M и PPO-C могут быть легко интегрированы в текущий конвейер PPO и не требуют дополнительных золотых меток. Мы оцениваем наши методы на Llama3-8B и Mistral-7B на шести разнообразных наборах данных, включая множественный выбор и генерацию открытого текста. Результаты эксперимента показывают, что оба наших метода могут снизить ошибку калибровки и сохранить производительность, сравнимую со стандартным PPO. Мы также показываем, что они не ущемляют возможности модели в настройках разговора с открытым окончанием.
English
Language model calibration refers to the alignment between the confidence of
the model and the actual performance of its responses. While previous studies
point out the overconfidence phenomenon in Large Language Models (LLMs) and
show that LLMs trained with Reinforcement Learning from Human Feedback (RLHF)
are overconfident with a more sharpened output probability, in this study, we
reveal that RLHF tends to lead models to express verbalized overconfidence in
their own responses. We investigate the underlying cause of this overconfidence
and demonstrate that reward models used for Proximal Policy Optimization (PPO)
exhibit inherent biases towards high-confidence scores regardless of the actual
quality of responses. Building upon this insight, we propose two PPO variants:
PPO-M: PPO with Calibrated Reward Modeling and PPO-C: PPO with Calibrated
Reward Calculation. PPO-M integrates explicit confidence scores in reward model
training, which calibrates reward models to better capture the alignment
between response quality and verbalized confidence. PPO-C adjusts the reward
score during PPO based on the difference between the current reward and the
moving average of past rewards. Both PPO-M and PPO-C can be seamlessly
integrated into the current PPO pipeline and do not require additional golden
labels. We evaluate our methods on both Llama3-8B and Mistral-7B across six
diverse datasets including multiple-choice and open-ended generation.
Experiment results demonstrate that both of our methods can reduce calibration
error and maintain performance comparable to standard PPO. We further show that
they do not compromise model capabilities in open-ended conversation settings.Summary
AI-Generated Summary