ChatPaper.aiChatPaper

Domando a Superconfiança em LLMs: Calibração de Recompensa em RLHF

Taming Overconfidence in LLMs: Reward Calibration in RLHF

October 13, 2024
Autores: Jixuan Leng, Chengsong Huang, Banghua Zhu, Jiaxin Huang
cs.AI

Resumo

A calibração do modelo de linguagem refere-se à alinhamento entre a confiança do modelo e o desempenho real de suas respostas. Enquanto estudos anteriores apontam o fenômeno da superconfiança em Modelos de Linguagem Grandes (LLMs) e mostram que LLMs treinados com Aprendizado por Reforço a partir do Feedback Humano (RLHF) são superconfiantes com uma probabilidade de saída mais afiada, neste estudo, revelamos que RLHF tende a levar os modelos a expressar superconfiança verbalizada em suas próprias respostas. Investigamos a causa subjacente dessa superconfiança e demonstramos que os modelos de recompensa usados na Otimização de Política Proximal (PPO) exibem viés inerente em direção a pontuações de alta confiança, independentemente da qualidade real das respostas. Com base nessa percepção, propomos duas variantes de PPO: PPO-M: PPO com Modelagem de Recompensa Calibrada e PPO-C: PPO com Cálculo de Recompensa Calibrado. PPO-M integra pontuações de confiança explícitas no treinamento do modelo de recompensa, o que calibra os modelos de recompensa para capturar melhor o alinhamento entre a qualidade da resposta e a confiança verbalizada. PPO-C ajusta a pontuação de recompensa durante o PPO com base na diferença entre a recompensa atual e a média móvel das recompensas passadas. Tanto PPO-M quanto PPO-C podem ser integrados perfeitamente ao pipeline atual do PPO e não exigem rótulos dourados adicionais. Avaliamos nossos métodos tanto no Llama3-8B quanto no Mistral-7B em seis conjuntos de dados diversos, incluindo geração de múltipla escolha e aberta. Os resultados dos experimentos demonstram que ambos os métodos podem reduzir o erro de calibração e manter um desempenho comparável ao PPO padrão. Mostramos ainda que eles não comprometem as capacidades do modelo em configurações de conversação aberta.
English
Language model calibration refers to the alignment between the confidence of the model and the actual performance of its responses. While previous studies point out the overconfidence phenomenon in Large Language Models (LLMs) and show that LLMs trained with Reinforcement Learning from Human Feedback (RLHF) are overconfident with a more sharpened output probability, in this study, we reveal that RLHF tends to lead models to express verbalized overconfidence in their own responses. We investigate the underlying cause of this overconfidence and demonstrate that reward models used for Proximal Policy Optimization (PPO) exhibit inherent biases towards high-confidence scores regardless of the actual quality of responses. Building upon this insight, we propose two PPO variants: PPO-M: PPO with Calibrated Reward Modeling and PPO-C: PPO with Calibrated Reward Calculation. PPO-M integrates explicit confidence scores in reward model training, which calibrates reward models to better capture the alignment between response quality and verbalized confidence. PPO-C adjusts the reward score during PPO based on the difference between the current reward and the moving average of past rewards. Both PPO-M and PPO-C can be seamlessly integrated into the current PPO pipeline and do not require additional golden labels. We evaluate our methods on both Llama3-8B and Mistral-7B across six diverse datasets including multiple-choice and open-ended generation. Experiment results demonstrate that both of our methods can reduce calibration error and maintain performance comparable to standard PPO. We further show that they do not compromise model capabilities in open-ended conversation settings.
PDF32November 16, 2024