HelpSteer2: 最高性能の報酬モデルを訓練するためのオープンソースデータセット
HelpSteer2: Open-source dataset for training top-performing reward models
June 12, 2024
著者: Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi Zeng, Gerald Shen, Daniel Egert, Jimmy J. Zhang, Makesh Narsimhan Sreedhar, Oleksii Kuchaiev
cs.AI
要旨
高品質な選好データセットは、人間の選好に沿った高品質な応答を生成するために大規模言語モデル(LLM)を効果的に導く報酬モデルを訓練するために不可欠です。LLMがより強力になり、より適切に調整されるにつれて、Open Assistant、HH-RLHF、HelpSteerなどの許諾ライセンスの選好データセットは、報酬モデリングにおいて効果を維持するために更新される必要があります。GPT-4のようなプロプライエタリなLLMから選好データを蒸留する方法は、モデル提供者によって商業利用に制限が課されています。生成された応答と属性ラベリングの品質の両方を改善するために、私たちは許諾ライセンスの選好データセット(CC-BY-4.0)であるHelpSteer2をリリースしました。HelpSteer2で訓練された強力な内部ベースモデルを使用して、2024年6月12日時点でReward-Benchの主要データセットにおいてSOTAスコア(92.0%)を達成し、現在リストされているオープンおよびプロプライエタリなモデルを上回りました。特に、HelpSteer2はわずか1万の応答ペアで構成されており、既存の選好データセット(例:HH-RLHF)よりも桁違いに少ないため、報酬モデルの訓練に非常に効率的です。私たちの広範な実験は、HelpSteer2で訓練された報酬モデルがLLMを調整するのに効果的であることを示しています。特に、私たちはSteerLM 2.0を提案します。これは、私たちの報酬モデルによって予測された豊富なマルチ属性スコアを効果的に利用できるモデル調整アプローチです。HelpSteer2はhttps://huggingface.co/datasets/nvidia/HelpSteer2で利用可能で、コードはhttps://github.com/NVIDIA/NeMo-Alignerで利用可能です。
English
High-quality preference datasets are essential for training reward models
that can effectively guide large language models (LLMs) in generating
high-quality responses aligned with human preferences. As LLMs become stronger
and better aligned, permissively licensed preference datasets, such as Open
Assistant, HH-RLHF, and HelpSteer need to be updated to remain effective for
reward modeling. Methods that distil preference data from proprietary LLMs such
as GPT-4 have restrictions on commercial usage imposed by model providers. To
improve upon both generated responses and attribute labeling quality, we
release HelpSteer2, a permissively licensed preference dataset (CC-BY-4.0).
Using a powerful internal base model trained on HelpSteer2, we are able to
achieve the SOTA score (92.0%) on Reward-Bench's primary dataset, outperforming
currently listed open and proprietary models, as of June 12th, 2024. Notably,
HelpSteer2 consists of only ten thousand response pairs, an order of magnitude
fewer than existing preference datasets (e.g., HH-RLHF), which makes it highly
efficient for training reward models. Our extensive experiments demonstrate
that reward models trained with HelpSteer2 are effective in aligning LLMs. In
particular, we propose SteerLM 2.0, a model alignment approach that can
effectively make use of the rich multi-attribute score predicted by our reward
models. HelpSteer2 is available at
https://huggingface.co/datasets/nvidia/HelpSteer2 and code is available at
https://github.com/NVIDIA/NeMo-AlignerSummary
AI-Generated Summary