HelpSteer2 : Ensemble de données open-source pour l'entraînement de modèles de récompense à hautes performances
HelpSteer2: Open-source dataset for training top-performing reward models
June 12, 2024
papers.authors: Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi Zeng, Gerald Shen, Daniel Egert, Jimmy J. Zhang, Makesh Narsimhan Sreedhar, Oleksii Kuchaiev
cs.AI
papers.abstract
Les ensembles de données de préférences de haute qualité sont essentiels pour entraîner des modèles de récompense capables de guider efficacement les grands modèles de langage (LLM) dans la génération de réponses de haute qualité alignées sur les préférences humaines. À mesure que les LLM deviennent plus puissants et mieux alignés, les ensembles de données de préférences sous licence permissive, tels que Open Assistant, HH-RLHF et HelpSteer, doivent être mis à jour pour rester efficaces dans la modélisation des récompenses. Les méthodes qui distillent des données de préférences à partir de LLM propriétaires comme GPT-4 sont soumises à des restrictions d'utilisation commerciale imposées par les fournisseurs de modèles. Pour améliorer à la fois la qualité des réponses générées et l'étiquetage des attributs, nous publions HelpSteer2, un ensemble de données de préférences sous licence permissive (CC-BY-4.0). En utilisant un modèle de base interne puissant entraîné sur HelpSteer2, nous avons atteint le score SOTA (92,0 %) sur le jeu de données principal de Reward-Bench, surpassant les modèles ouverts et propriétaires actuellement répertoriés, au 12 juin 2024. Notamment, HelpSteer2 ne contient que dix mille paires de réponses, soit un ordre de grandeur de moins que les ensembles de données de préférences existants (par exemple, HH-RLHF), ce qui le rend très efficace pour l'entraînement des modèles de récompense. Nos expériences approfondies démontrent que les modèles de récompense entraînés avec HelpSteer2 sont efficaces pour aligner les LLM. En particulier, nous proposons SteerLM 2.0, une approche d'alignement de modèles qui peut exploiter efficacement le score multi-attribut riche prédit par nos modèles de récompense. HelpSteer2 est disponible à l'adresse https://huggingface.co/datasets/nvidia/HelpSteer2 et le code est disponible à l'adresse https://github.com/NVIDIA/NeMo-Aligner.
English
High-quality preference datasets are essential for training reward models
that can effectively guide large language models (LLMs) in generating
high-quality responses aligned with human preferences. As LLMs become stronger
and better aligned, permissively licensed preference datasets, such as Open
Assistant, HH-RLHF, and HelpSteer need to be updated to remain effective for
reward modeling. Methods that distil preference data from proprietary LLMs such
as GPT-4 have restrictions on commercial usage imposed by model providers. To
improve upon both generated responses and attribute labeling quality, we
release HelpSteer2, a permissively licensed preference dataset (CC-BY-4.0).
Using a powerful internal base model trained on HelpSteer2, we are able to
achieve the SOTA score (92.0%) on Reward-Bench's primary dataset, outperforming
currently listed open and proprietary models, as of June 12th, 2024. Notably,
HelpSteer2 consists of only ten thousand response pairs, an order of magnitude
fewer than existing preference datasets (e.g., HH-RLHF), which makes it highly
efficient for training reward models. Our extensive experiments demonstrate
that reward models trained with HelpSteer2 are effective in aligning LLMs. In
particular, we propose SteerLM 2.0, a model alignment approach that can
effectively make use of the rich multi-attribute score predicted by our reward
models. HelpSteer2 is available at
https://huggingface.co/datasets/nvidia/HelpSteer2 and code is available at
https://github.com/NVIDIA/NeMo-Aligner