HelpSteer2-Voorkeur: Aanvullen van Beoordelingen met Voorkeuren

Samenvatting

Beloningsmodellen zijn essentieel voor het afstemmen van modellen om instructies te volgen en worden doorgaans getraind volgens een van twee populaire paradigma's: de Bradley-Terry-stijl of de Regressie-stijl. Er is echter een gebrek aan bewijs dat de ene benadering beter is dan de andere, wanneer deze adequaat zijn afgestemd op de gegevens. Dit komt voornamelijk doordat deze benaderingen gegevens vereisen die zijn verzameld in verschillende (maar onverenigbare) formaten, wat betekent dat adequaat afgestemde gegevens niet beschikbaar zijn in bestaande openbare datasets. Om dit probleem aan te pakken, stellen we voorkeursannotaties (ontworpen voor Bradley-Terry-training) beschikbaar om bestaande beoordelingen (ontworpen voor Regressie-stijl training) aan te vullen in de HelpSteer2-dataset. Om de interpretatie van gegevens te verbeteren, worden voorkeursannotaties vergezeld van menselijke rechtvaardigingen. Met behulp van deze gegevens voeren we de eerste directe vergelijking uit van Bradley-Terry- en Regressiemodellen wanneer deze adequaat zijn afgestemd op de gegevens. Op basis van inzichten die zijn afgeleid uit een dergelijke vergelijking stellen we een nieuwe benadering voor om Bradley-Terry- en Regressie-beloningsmodellering te combineren. Een Llama-3.1-70B-Instructiemodel afgestemd met deze benadering scoort 94,1 op RewardBench en komt als beste uit de bus van meer dan 140 beloningsmodellen vanaf 1 oktober 2024. We tonen ook de effectiviteit van dit beloningsmodel bij het afstemmen van modellen om instructies te volgen in RLHF. We stellen deze dataset (CC-BY-4.0-licentie) beschikbaar op https://huggingface.co/datasets/nvidia/HelpSteer2 en maken het getrainde Beloningsmodel openbaar op https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward.

English

Reward models are critical for aligning models to follow instructions, and are typically trained following one of two popular paradigms: Bradley-Terry style or Regression style. However, there is a lack of evidence that either approach is better than the other, when adequately matched for data. This is primarily because these approaches require data collected in different (but incompatible) formats, meaning that adequately matched data is not available in existing public datasets. To tackle this problem, we release preference annotations (designed for Bradley-Terry training) to complement existing ratings (designed for Regression style training) in the HelpSteer2 dataset. To improve data interpretability, preference annotations are accompanied with human-written justifications. Using this data, we conduct the first head-to-head comparison of Bradley-Terry and Regression models when adequately matched for data. Based on insights derived from such a comparison, we propose a novel approach to combine Bradley-Terry and Regression reward modeling. A Llama-3.1-70B-Instruct model tuned with this approach scores 94.1 on RewardBench, emerging top of more than 140 reward models as of 1 Oct 2024. We also demonstrate the effectiveness of this reward model at aligning models to follow instructions in RLHF. We open-source this dataset (CC-BY-4.0 license) at https://huggingface.co/datasets/nvidia/HelpSteer2 and openly release the trained Reward Model at https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward

HelpSteer2-Voorkeur: Aanvullen van Beoordelingen met Voorkeuren

HelpSteer2-Preference: Complementing Ratings with Preferences

Samenvatting

Summary

Support

Support