HelpSteer2-Voorkeur: Aanvullen van Beoordelingen met Voorkeuren
HelpSteer2-Preference: Complementing Ratings with Preferences
October 2, 2024
Auteurs: Zhilin Wang, Alexander Bukharin, Olivier Delalleau, Daniel Egert, Gerald Shen, Jiaqi Zeng, Oleksii Kuchaiev, Yi Dong
cs.AI
Samenvatting
Beloningsmodellen zijn essentieel voor het afstemmen van modellen om instructies te volgen en worden doorgaans getraind volgens een van twee populaire paradigma's: de Bradley-Terry-stijl of de Regressie-stijl. Er is echter een gebrek aan bewijs dat de ene benadering beter is dan de andere, wanneer deze adequaat zijn afgestemd op de gegevens. Dit komt voornamelijk doordat deze benaderingen gegevens vereisen die zijn verzameld in verschillende (maar onverenigbare) formaten, wat betekent dat adequaat afgestemde gegevens niet beschikbaar zijn in bestaande openbare datasets. Om dit probleem aan te pakken, stellen we voorkeursannotaties (ontworpen voor Bradley-Terry-training) beschikbaar om bestaande beoordelingen (ontworpen voor Regressie-stijl training) aan te vullen in de HelpSteer2-dataset. Om de interpretatie van gegevens te verbeteren, worden voorkeursannotaties vergezeld van menselijke rechtvaardigingen. Met behulp van deze gegevens voeren we de eerste directe vergelijking uit van Bradley-Terry- en Regressiemodellen wanneer deze adequaat zijn afgestemd op de gegevens. Op basis van inzichten die zijn afgeleid uit een dergelijke vergelijking stellen we een nieuwe benadering voor om Bradley-Terry- en Regressie-beloningsmodellering te combineren. Een Llama-3.1-70B-Instructiemodel afgestemd met deze benadering scoort 94,1 op RewardBench en komt als beste uit de bus van meer dan 140 beloningsmodellen vanaf 1 oktober 2024. We tonen ook de effectiviteit van dit beloningsmodel bij het afstemmen van modellen om instructies te volgen in RLHF. We stellen deze dataset (CC-BY-4.0-licentie) beschikbaar op https://huggingface.co/datasets/nvidia/HelpSteer2 en maken het getrainde Beloningsmodel openbaar op https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward.
English
Reward models are critical for aligning models to follow instructions, and
are typically trained following one of two popular paradigms: Bradley-Terry
style or Regression style. However, there is a lack of evidence that either
approach is better than the other, when adequately matched for data. This is
primarily because these approaches require data collected in different (but
incompatible) formats, meaning that adequately matched data is not available in
existing public datasets. To tackle this problem, we release preference
annotations (designed for Bradley-Terry training) to complement existing
ratings (designed for Regression style training) in the HelpSteer2 dataset. To
improve data interpretability, preference annotations are accompanied with
human-written justifications. Using this data, we conduct the first
head-to-head comparison of Bradley-Terry and Regression models when adequately
matched for data. Based on insights derived from such a comparison, we propose
a novel approach to combine Bradley-Terry and Regression reward modeling. A
Llama-3.1-70B-Instruct model tuned with this approach scores 94.1 on
RewardBench, emerging top of more than 140 reward models as of 1 Oct 2024. We
also demonstrate the effectiveness of this reward model at aligning models to
follow instructions in RLHF. We open-source this dataset (CC-BY-4.0 license) at
https://huggingface.co/datasets/nvidia/HelpSteer2 and openly release the
trained Reward Model at
https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-RewardSummary
AI-Generated Summary