ChatPaper.aiChatPaper

Maîtriser la surestimation dans les LLM : Calibration des récompenses dans RLHF

Taming Overconfidence in LLMs: Reward Calibration in RLHF

October 13, 2024
Auteurs: Jixuan Leng, Chengsong Huang, Banghua Zhu, Jiaxin Huang
cs.AI

Résumé

La calibration du modèle linguistique fait référence à l'alignement entre la confiance du modèle et les performances réelles de ses réponses. Alors que des études antérieures soulignent le phénomène de surconfiance dans les Grands Modèles Linguistiques (GML) et montrent que les GML entraînés avec l'Apprentissage par Renforcement à partir des Retours Humains (ARRH) sont surconfiants avec une probabilité de sortie plus affinée, dans cette étude, nous révélons que l'ARRH a tendance à amener les modèles à exprimer une surconfiance verbalisée dans leurs propres réponses. Nous examinons la cause sous-jacente de cette surconfiance et démontrons que les modèles de récompense utilisés pour l'Optimisation de Politique Proximale (OPP) présentent des biais inhérents en faveur de scores de haute confiance indépendamment de la qualité réelle des réponses. S'appuyant sur cette compréhension, nous proposons deux variantes d'OPP : OPP-M : OPP avec Modélisation de Récompense Calibrée et OPP-C : OPP avec Calcul de Récompense Calibré. OPP-M intègre des scores de confiance explicites dans l'entraînement du modèle de récompense, ce qui calibre les modèles de récompense pour mieux capturer l'alignement entre la qualité de la réponse et la confiance verbalisée. OPP-C ajuste le score de récompense pendant l'OPP en fonction de la différence entre la récompense actuelle et la moyenne mobile des récompenses passées. Les deux méthodes OPP-M et OPP-C peuvent être intégrées de manière transparente dans le pipeline OPP actuel et ne nécessitent pas de libellés dorés supplémentaires. Nous évaluons nos méthodes à la fois sur Llama3-8B et Mistral-7B à travers six ensembles de données divers, y compris des générations à choix multiples et ouvertes. Les résultats des expériences montrent que nos deux méthodes peuvent réduire l'erreur de calibration et maintenir des performances comparables à l'OPP standard. Nous montrons en outre qu'elles ne compromettent pas les capacités du modèle dans des contextes de conversation ouverte.
English
Language model calibration refers to the alignment between the confidence of the model and the actual performance of its responses. While previous studies point out the overconfidence phenomenon in Large Language Models (LLMs) and show that LLMs trained with Reinforcement Learning from Human Feedback (RLHF) are overconfident with a more sharpened output probability, in this study, we reveal that RLHF tends to lead models to express verbalized overconfidence in their own responses. We investigate the underlying cause of this overconfidence and demonstrate that reward models used for Proximal Policy Optimization (PPO) exhibit inherent biases towards high-confidence scores regardless of the actual quality of responses. Building upon this insight, we propose two PPO variants: PPO-M: PPO with Calibrated Reward Modeling and PPO-C: PPO with Calibrated Reward Calculation. PPO-M integrates explicit confidence scores in reward model training, which calibrates reward models to better capture the alignment between response quality and verbalized confidence. PPO-C adjusts the reward score during PPO based on the difference between the current reward and the moving average of past rewards. Both PPO-M and PPO-C can be seamlessly integrated into the current PPO pipeline and do not require additional golden labels. We evaluate our methods on both Llama3-8B and Mistral-7B across six diverse datasets including multiple-choice and open-ended generation. Experiment results demonstrate that both of our methods can reduce calibration error and maintain performance comparable to standard PPO. We further show that they do not compromise model capabilities in open-ended conversation settings.

Summary

AI-Generated Summary

PDF32November 16, 2024