ChatPaper.aiChatPaper

Die Bändigung von Übermut in LLMs: Belohnungskalibrierung in RLHF

Taming Overconfidence in LLMs: Reward Calibration in RLHF

October 13, 2024
Autoren: Jixuan Leng, Chengsong Huang, Banghua Zhu, Jiaxin Huang
cs.AI

Zusammenfassung

Die Kalibrierung von Sprachmodellen bezieht sich auf die Übereinstimmung zwischen der Zuversicht des Modells und der tatsächlichen Leistung seiner Antworten. Während frühere Studien das Phänomen der Überzuversicht bei großen Sprachmodellen (Large Language Models, LLMs) aufzeigen und zeigen, dass LLMs, die mit Verstärkendem Lernen aus menschlichem Feedback (Reinforcement Learning from Human Feedback, RLHF) trainiert wurden, übermäßig zuversichtlich mit einer schärferen Ausgabewahrscheinlichkeit sind, enthüllen wir in dieser Studie, dass RLHF dazu neigt, Modelle dazu zu bringen, verbalisierte Überzuversicht in ihren eigenen Antworten auszudrücken. Wir untersuchen die zugrunde liegende Ursache dieser Überzuversicht und zeigen, dass Belohnungsmodelle, die für die Proximal Policy Optimization (PPO) verwendet werden, inhärente Voreingenommenheiten gegenüber hoch zuversichtlichen Punktzahlen aufweisen, unabhängig von der tatsächlichen Qualität der Antworten. Aufbauend auf dieser Erkenntnis schlagen wir zwei PPO-Varianten vor: PPO-M: PPO mit kalibrierter Belohnungsmodellierung und PPO-C: PPO mit kalibrierter Belohnungsberechnung. PPO-M integriert explizite Zuversichtspunktzahlen in das Training des Belohnungsmodells, was die Belohnungsmodelle kalibriert, um die Übereinstimmung zwischen Antwortqualität und verbalisierter Zuversicht besser zu erfassen. PPO-C passt den Belohnungspunkt während PPO basierend auf dem Unterschied zwischen der aktuellen Belohnung und dem gleitenden Durchschnitt vergangener Belohnungen an. Sowohl PPO-M als auch PPO-C können nahtlos in die aktuelle PPO-Pipeline integriert werden und erfordern keine zusätzlichen goldenen Etiketten. Wir evaluieren unsere Methoden sowohl auf Llama3-8B als auch auf Mistral-7B über sechs verschiedene Datensätze, einschließlich Multiple-Choice und offener Generierung. Die Experimentergebnisse zeigen, dass beide unserer Methoden den Kalibrierungsfehler reduzieren können und eine Leistung aufrechterhalten, die mit der Standard-PPO vergleichbar ist. Darüber hinaus zeigen wir, dass sie die Fähigkeiten des Modells in offenen Gesprächseinstellungen nicht beeinträchtigen.
English
Language model calibration refers to the alignment between the confidence of the model and the actual performance of its responses. While previous studies point out the overconfidence phenomenon in Large Language Models (LLMs) and show that LLMs trained with Reinforcement Learning from Human Feedback (RLHF) are overconfident with a more sharpened output probability, in this study, we reveal that RLHF tends to lead models to express verbalized overconfidence in their own responses. We investigate the underlying cause of this overconfidence and demonstrate that reward models used for Proximal Policy Optimization (PPO) exhibit inherent biases towards high-confidence scores regardless of the actual quality of responses. Building upon this insight, we propose two PPO variants: PPO-M: PPO with Calibrated Reward Modeling and PPO-C: PPO with Calibrated Reward Calculation. PPO-M integrates explicit confidence scores in reward model training, which calibrates reward models to better capture the alignment between response quality and verbalized confidence. PPO-C adjusts the reward score during PPO based on the difference between the current reward and the moving average of past rewards. Both PPO-M and PPO-C can be seamlessly integrated into the current PPO pipeline and do not require additional golden labels. We evaluate our methods on both Llama3-8B and Mistral-7B across six diverse datasets including multiple-choice and open-ended generation. Experiment results demonstrate that both of our methods can reduce calibration error and maintain performance comparable to standard PPO. We further show that they do not compromise model capabilities in open-ended conversation settings.

Summary

AI-Generated Summary

PDF32November 16, 2024