ChatPaper.aiChatPaper

HelpSteer2-Preference : Compléter les évaluations avec les préférences

HelpSteer2-Preference: Complementing Ratings with Preferences

October 2, 2024
Auteurs: Zhilin Wang, Alexander Bukharin, Olivier Delalleau, Daniel Egert, Gerald Shen, Jiaqi Zeng, Oleksii Kuchaiev, Yi Dong
cs.AI

Résumé

Les modèles de récompense sont essentiels pour aligner les modèles afin de suivre les instructions et sont généralement entraînés selon l'un des deux paradigmes populaires : le style Bradley-Terry ou le style de régression. Cependant, il n'existe pas suffisamment de preuves indiquant que l'une ou l'autre approche est meilleure que l'autre, lorsqu'elles sont correctement adaptées aux données. Cela est principalement dû au fait que ces approches nécessitent des données collectées dans des formats différents (mais incompatibles), ce qui signifie que des données correctement appariées ne sont pas disponibles dans les ensembles de données publics existants. Pour résoudre ce problème, nous publions des annotations de préférence (conçues pour l'entraînement Bradley-Terry) pour compléter les évaluations existantes (conçues pour l'entraînement de style de régression) dans l'ensemble de données HelpSteer2. Pour améliorer l'interprétabilité des données, les annotations de préférence sont accompagnées de justifications rédigées par des humains. En utilisant ces données, nous effectuons la première comparaison directe des modèles Bradley-Terry et de régression lorsqu'ils sont correctement adaptés aux données. Sur la base des informations tirées d'une telle comparaison, nous proposons une nouvelle approche pour combiner la modélisation de récompense Bradley-Terry et de régression. Un modèle Llama-3.1-70B-Instruct ajusté avec cette approche obtient un score de 94,1 sur RewardBench, se classant en tête parmi plus de 140 modèles de récompense au 1er octobre 2024. Nous démontrons également l'efficacité de ce modèle de récompense pour aligner les modèles afin de suivre les instructions dans RLHF. Nous mettons en open source cet ensemble de données (licence CC-BY-4.0) sur https://huggingface.co/datasets/nvidia/HelpSteer2 et publions ouvertement le modèle de récompense entraîné sur https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward.
English
Reward models are critical for aligning models to follow instructions, and are typically trained following one of two popular paradigms: Bradley-Terry style or Regression style. However, there is a lack of evidence that either approach is better than the other, when adequately matched for data. This is primarily because these approaches require data collected in different (but incompatible) formats, meaning that adequately matched data is not available in existing public datasets. To tackle this problem, we release preference annotations (designed for Bradley-Terry training) to complement existing ratings (designed for Regression style training) in the HelpSteer2 dataset. To improve data interpretability, preference annotations are accompanied with human-written justifications. Using this data, we conduct the first head-to-head comparison of Bradley-Terry and Regression models when adequately matched for data. Based on insights derived from such a comparison, we propose a novel approach to combine Bradley-Terry and Regression reward modeling. A Llama-3.1-70B-Instruct model tuned with this approach scores 94.1 on RewardBench, emerging top of more than 140 reward models as of 1 Oct 2024. We also demonstrate the effectiveness of this reward model at aligning models to follow instructions in RLHF. We open-source this dataset (CC-BY-4.0 license) at https://huggingface.co/datasets/nvidia/HelpSteer2 and openly release the trained Reward Model at https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward

Summary

AI-Generated Summary

PDF245November 16, 2024