ChatPaper.aiChatPaper

Geheimnisse von RLHF in großen Sprachmodellen Teil II: Belohnungsmodellierung

Secrets of RLHF in Large Language Models Part II: Reward Modeling

January 11, 2024
Autoren: Binghai Wang, Rui Zheng, Lu Chen, Yan Liu, Shihan Dou, Caishuang Huang, Wei Shen, Senjie Jin, Enyu Zhou, Chenyu Shi, Songyang Gao, Nuo Xu, Yuhao Zhou, Xiaoran Fan, Zhiheng Xi, Jun Zhao, Xiao Wang, Tao Ji, Hang Yan, Lixing Shen, Zhan Chen, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang
cs.AI

Zusammenfassung

Reinforcement Learning from Human Feedback (RLHF) hat sich zu einer entscheidenden Technologie entwickelt, um Sprachmodelle mit menschlichen Werten und Absichten in Einklang zu bringen und es den Modellen zu ermöglichen, hilfreichere und harmlosere Antworten zu generieren. Belohnungsmodelle werden als Stellvertreter für menschliche Präferenzen trainiert, um die Optimierung des Reinforcement Learning voranzutreiben. Obwohl Belohnungsmodelle oft als zentral für die Erreichung hoher Leistung angesehen werden, stehen sie in praktischen Anwendungen vor den folgenden Herausforderungen: (1) Falsche und mehrdeutige Präferenzpaare im Datensatz können das Belohnungsmodell daran hindern, die menschliche Absicht genau zu erfassen. (2) Belohnungsmodelle, die auf Daten einer spezifischen Verteilung trainiert wurden, haben oft Schwierigkeiten, sich auf Beispiele außerhalb dieser Verteilung zu verallgemeinern, und sind nicht für iteratives RLHF-Training geeignet. In diesem Bericht versuchen wir, diese beiden Probleme zu adressieren. (1) Aus einer datenbezogenen Perspektive schlagen wir eine Methode vor, um die Stärke der Präferenzen innerhalb der Daten zu messen, basierend auf einem Abstimmungsmechanismus mehrerer Belohnungsmodelle. Experimentelle Ergebnisse bestätigen, dass Daten mit unterschiedlichen Präferenzstärken unterschiedliche Auswirkungen auf die Leistung des Belohnungsmodells haben. Wir führen eine Reihe neuartiger Methoden ein, um den Einfluss falscher und mehrdeutiger Präferenzen im Datensatz zu minimieren und hochwertige Präferenzdaten vollständig zu nutzen. (2) Aus algorithmischer Sicht führen wir kontrastives Lernen ein, um die Fähigkeit der Belohnungsmodelle zu verbessern, zwischen ausgewählten und abgelehnten Antworten zu unterscheiden, und dadurch die Modellverallgemeinerung zu verbessern. Darüber hinaus setzen wir Meta-Learning ein, um dem Belohnungsmodell die Fähigkeit zu erhalten, subtile Unterschiede in Out-of-Distribution-Beispielen zu erkennen, und dieser Ansatz kann für iterative RLHF-Optimierung genutzt werden.
English
Reinforcement Learning from Human Feedback (RLHF) has become a crucial technology for aligning language models with human values and intentions, enabling models to produce more helpful and harmless responses. Reward models are trained as proxies for human preferences to drive reinforcement learning optimization. While reward models are often considered central to achieving high performance, they face the following challenges in practical applications: (1) Incorrect and ambiguous preference pairs in the dataset may hinder the reward model from accurately capturing human intent. (2) Reward models trained on data from a specific distribution often struggle to generalize to examples outside that distribution and are not suitable for iterative RLHF training. In this report, we attempt to address these two issues. (1) From a data perspective, we propose a method to measure the strength of preferences within the data, based on a voting mechanism of multiple reward models. Experimental results confirm that data with varying preference strengths have different impacts on reward model performance. We introduce a series of novel methods to mitigate the influence of incorrect and ambiguous preferences in the dataset and fully leverage high-quality preference data. (2) From an algorithmic standpoint, we introduce contrastive learning to enhance the ability of reward models to distinguish between chosen and rejected responses, thereby improving model generalization. Furthermore, we employ meta-learning to enable the reward model to maintain the ability to differentiate subtle differences in out-of-distribution samples, and this approach can be utilized for iterative RLHF optimization.
PDF294December 15, 2024