Geheimen van RLHF in Grote Taalmodellen Deel II: Beloningsmodellering

Samenvatting

Reinforcement Learning from Human Feedback (RLHF) is een cruciale technologie geworden voor het afstemmen van taalmodellen op menselijke waarden en intenties, waardoor modellen nuttigere en veiligere reacties kunnen genereren. Beloningsmodellen worden getraind als proxies voor menselijke voorkeuren om de optimalisatie van reinforcement learning aan te sturen. Hoewel beloningsmodellen vaak als centraal worden beschouwd voor het bereiken van hoge prestaties, worden ze in praktische toepassingen geconfronteerd met de volgende uitdagingen: (1) Onjuiste en ambiguë voorkeursparen in de dataset kunnen het beloningsmodel belemmeren om menselijke intenties nauwkeurig vast te leggen. (2) Beloningsmodellen die zijn getraind op data van een specifieke verdeling, hebben vaak moeite om te generaliseren naar voorbeelden buiten die verdeling en zijn niet geschikt voor iteratieve RLHF-training. In dit rapport proberen we deze twee problemen aan te pakken. (1) Vanuit een dataperspectief stellen we een methode voor om de sterkte van voorkeuren binnen de data te meten, gebaseerd op een stemmechanisme van meerdere beloningsmodellen. Experimentele resultaten bevestigen dat data met variërende voorkeurssterktes verschillende invloeden hebben op de prestaties van het beloningsmodel. We introduceren een reeks nieuwe methoden om de invloed van onjuiste en ambiguë voorkeuren in de dataset te verminderen en hoogwaardige voorkeursdata optimaal te benutten. (2) Vanuit een algoritmisch perspectief introduceren we contrastief leren om het vermogen van beloningsmodellen te verbeteren om gekozen en afgewezen reacties te onderscheiden, waardoor de generalisatie van het model wordt verbeterd. Bovendien gebruiken we meta-leren om het beloningsmodel in staat te stellen het vermogen te behouden om subtiele verschillen in out-of-distribution voorbeelden te onderscheiden, en deze aanpak kan worden gebruikt voor iteratieve RLHF-optimalisatie.

English

Reinforcement Learning from Human Feedback (RLHF) has become a crucial technology for aligning language models with human values and intentions, enabling models to produce more helpful and harmless responses. Reward models are trained as proxies for human preferences to drive reinforcement learning optimization. While reward models are often considered central to achieving high performance, they face the following challenges in practical applications: (1) Incorrect and ambiguous preference pairs in the dataset may hinder the reward model from accurately capturing human intent. (2) Reward models trained on data from a specific distribution often struggle to generalize to examples outside that distribution and are not suitable for iterative RLHF training. In this report, we attempt to address these two issues. (1) From a data perspective, we propose a method to measure the strength of preferences within the data, based on a voting mechanism of multiple reward models. Experimental results confirm that data with varying preference strengths have different impacts on reward model performance. We introduce a series of novel methods to mitigate the influence of incorrect and ambiguous preferences in the dataset and fully leverage high-quality preference data. (2) From an algorithmic standpoint, we introduce contrastive learning to enhance the ability of reward models to distinguish between chosen and rejected responses, thereby improving model generalization. Furthermore, we employ meta-learning to enable the reward model to maintain the ability to differentiate subtle differences in out-of-distribution samples, and this approach can be utilized for iterative RLHF optimization.

Geheimen van RLHF in Grote Taalmodellen Deel II: Beloningsmodellering

Secrets of RLHF in Large Language Models Part II: Reward Modeling

Samenvatting

Support