HelpSteer2: Открытый набор данных для обучения моделей вознаграждения высокой производительности
HelpSteer2: Open-source dataset for training top-performing reward models
June 12, 2024
Авторы: Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi Zeng, Gerald Shen, Daniel Egert, Jimmy J. Zhang, Makesh Narsimhan Sreedhar, Oleksii Kuchaiev
cs.AI
Аннотация
Высококачественные наборы данных предпочтений являются необходимыми для обучения моделей вознаграждения, которые могут эффективно направлять большие языковые модели (LLM) в создании высококачественных ответов, соответствующих человеческим предпочтениям. По мере усиления и улучшения LLM, такие наборы данных предпочтений с разрешительной лицензией, как Open Assistant, HH-RLHF и HelpSteer, должны быть обновлены для сохранения эффективности моделирования вознаграждения. Методы извлечения данных о предпочтениях из собственных LLM, таких как GPT-4, имеют ограничения на коммерческое использование, установленные поставщиками моделей. Для улучшения как сгенерированных ответов, так и качества разметки атрибутов, мы выпускаем HelpSteer2, набор данных предпочтений с разрешительной лицензией (CC-BY-4.0). Используя мощную внутреннюю базовую модель, обученную на HelpSteer2, мы можем достичь лучшего показателя в области Reward-Bench (92,0%), превзойдя текущие открытые и собственные модели, на момент 12 июня 2024 года. Следует отметить, что HelpSteer2 состоит всего из десяти тысяч пар ответов, на порядок меньше, чем существующие наборы данных предпочтений (например, HH-RLHF), что делает его очень эффективным для обучения моделей вознаграждения. Наши обширные эксперименты показывают, что модели вознаграждения, обученные с использованием HelpSteer2, эффективны в выравнивании LLM. В частности, мы предлагаем SteerLM 2.0, подход к выравниванию модели, который может эффективно использовать богатый многозначный показатель, предсказанный нашими моделями вознаграждения. HelpSteer2 доступен по адресу https://huggingface.co/datasets/nvidia/HelpSteer2, а код доступен по адресу https://github.com/NVIDIA/NeMo-Aligner.
English
High-quality preference datasets are essential for training reward models
that can effectively guide large language models (LLMs) in generating
high-quality responses aligned with human preferences. As LLMs become stronger
and better aligned, permissively licensed preference datasets, such as Open
Assistant, HH-RLHF, and HelpSteer need to be updated to remain effective for
reward modeling. Methods that distil preference data from proprietary LLMs such
as GPT-4 have restrictions on commercial usage imposed by model providers. To
improve upon both generated responses and attribute labeling quality, we
release HelpSteer2, a permissively licensed preference dataset (CC-BY-4.0).
Using a powerful internal base model trained on HelpSteer2, we are able to
achieve the SOTA score (92.0%) on Reward-Bench's primary dataset, outperforming
currently listed open and proprietary models, as of June 12th, 2024. Notably,
HelpSteer2 consists of only ten thousand response pairs, an order of magnitude
fewer than existing preference datasets (e.g., HH-RLHF), which makes it highly
efficient for training reward models. Our extensive experiments demonstrate
that reward models trained with HelpSteer2 are effective in aligning LLMs. In
particular, we propose SteerLM 2.0, a model alignment approach that can
effectively make use of the rich multi-attribute score predicted by our reward
models. HelpSteer2 is available at
https://huggingface.co/datasets/nvidia/HelpSteer2 and code is available at
https://github.com/NVIDIA/NeMo-Aligner