ChatPaper.aiChatPaper

HelpSteer2-Preference: 評価を好みで補完する

HelpSteer2-Preference: Complementing Ratings with Preferences

October 2, 2024
著者: Zhilin Wang, Alexander Bukharin, Olivier Delalleau, Daniel Egert, Gerald Shen, Jiaqi Zeng, Oleksii Kuchaiev, Yi Dong
cs.AI

要旨

報酬モデルは、モデルを指示に従わせるために重要であり、通常、Bradley-Terryスタイルまたは回帰スタイルのいずれかに従ってトレーニングされます。ただし、データが適切に一致している場合、どちらのアプローチが優れているかについては、いずれかが他よりも優れているという証拠が不足しています。これは、これらのアプローチが異なる(しかし互換性のない)形式で収集されたデータを必要とするためであり、既存の公開データセットには適切に一致するデータが利用できないためです。この問題に取り組むために、私たちはHelpSteer2データセットにおいて、既存の評価(回帰スタイルのトレーニング向け)を補完するためにBradley-Terryトレーニング向けに設計された好みの注釈を公開します。データの解釈性を向上させるために、好みの注釈には人間による根拠が付属しています。このデータを使用して、適切に一致したデータに基づいてBradley-Terryモデルと回帰モデルを初めて比較します。この比較から得られた洞察に基づいて、Bradley-Terryと回帰報酬モデリングを組み合わせる新しいアプローチを提案します。このアプローチで調整されたLlama-3.1-70B-Instructモデルは、2024年10月1日現在、RewardBenchで140以上の報酬モデルの中で最高の94.1のスコアを獲得しています。また、この報酬モデルがRLHFでモデルを指示に従わせる効果を示しています。私たちはこのデータセット(CC-BY-4.0ライセンス)をhttps://huggingface.co/datasets/nvidia/HelpSteer2でオープンソース化し、トレーニングされた報酬モデルをhttps://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Rewardで公開しています。
English
Reward models are critical for aligning models to follow instructions, and are typically trained following one of two popular paradigms: Bradley-Terry style or Regression style. However, there is a lack of evidence that either approach is better than the other, when adequately matched for data. This is primarily because these approaches require data collected in different (but incompatible) formats, meaning that adequately matched data is not available in existing public datasets. To tackle this problem, we release preference annotations (designed for Bradley-Terry training) to complement existing ratings (designed for Regression style training) in the HelpSteer2 dataset. To improve data interpretability, preference annotations are accompanied with human-written justifications. Using this data, we conduct the first head-to-head comparison of Bradley-Terry and Regression models when adequately matched for data. Based on insights derived from such a comparison, we propose a novel approach to combine Bradley-Terry and Regression reward modeling. A Llama-3.1-70B-Instruct model tuned with this approach scores 94.1 on RewardBench, emerging top of more than 140 reward models as of 1 Oct 2024. We also demonstrate the effectiveness of this reward model at aligning models to follow instructions in RLHF. We open-source this dataset (CC-BY-4.0 license) at https://huggingface.co/datasets/nvidia/HelpSteer2 and openly release the trained Reward Model at https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward

Summary

AI-Generated Summary

PDF245November 16, 2024