HelpSteer2: Conjunto de dados de código aberto para treinar modelos de recompensa de alto desempenho
HelpSteer2: Open-source dataset for training top-performing reward models
June 12, 2024
Autores: Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi Zeng, Gerald Shen, Daniel Egert, Jimmy J. Zhang, Makesh Narsimhan Sreedhar, Oleksii Kuchaiev
cs.AI
Resumo
Conjuntos de dados de preferência de alta qualidade são essenciais para treinar modelos de recompensa que possam guiar efetivamente grandes modelos de linguagem (LLMs) na geração de respostas de alta qualidade alinhadas com as preferências humanas. À medida que os LLMs se tornam mais poderosos e melhor alinhados, conjuntos de dados de preferência com licenças permissivas, como Open Assistant, HH-RLHF e HelpSteer, precisam ser atualizados para permanecerem eficazes na modelagem de recompensa. Métodos que extraem dados de preferência de LLMs proprietários, como o GPT-4, têm restrições de uso comercial impostas pelos provedores dos modelos. Para melhorar tanto a qualidade das respostas geradas quanto a rotulagem de atributos, lançamos o HelpSteer2, um conjunto de dados de preferência com licença permissiva (CC-BY-4.0). Usando um modelo base interno poderoso treinado no HelpSteer2, conseguimos alcançar a pontuação SOTA (92,0%) no conjunto de dados principal do Reward-Bench, superando os modelos abertos e proprietários atualmente listados, em 12 de junho de 2024. Notavelmente, o HelpSteer2 consiste em apenas dez mil pares de respostas, uma ordem de magnitude menor do que os conjuntos de dados de preferência existentes (por exemplo, HH-RLHF), o que o torna altamente eficiente para o treinamento de modelos de recompensa. Nossos extensos experimentos demonstram que os modelos de recompensa treinados com o HelpSteer2 são eficazes no alinhamento de LLMs. Em particular, propomos o SteerLM 2.0, uma abordagem de alinhamento de modelos que pode efetivamente utilizar a rica pontuação multi-atributo prevista por nossos modelos de recompensa. O HelpSteer2 está disponível em https://huggingface.co/datasets/nvidia/HelpSteer2 e o código está disponível em https://github.com/NVIDIA/NeMo-Aligner.
English
High-quality preference datasets are essential for training reward models
that can effectively guide large language models (LLMs) in generating
high-quality responses aligned with human preferences. As LLMs become stronger
and better aligned, permissively licensed preference datasets, such as Open
Assistant, HH-RLHF, and HelpSteer need to be updated to remain effective for
reward modeling. Methods that distil preference data from proprietary LLMs such
as GPT-4 have restrictions on commercial usage imposed by model providers. To
improve upon both generated responses and attribute labeling quality, we
release HelpSteer2, a permissively licensed preference dataset (CC-BY-4.0).
Using a powerful internal base model trained on HelpSteer2, we are able to
achieve the SOTA score (92.0%) on Reward-Bench's primary dataset, outperforming
currently listed open and proprietary models, as of June 12th, 2024. Notably,
HelpSteer2 consists of only ten thousand response pairs, an order of magnitude
fewer than existing preference datasets (e.g., HH-RLHF), which makes it highly
efficient for training reward models. Our extensive experiments demonstrate
that reward models trained with HelpSteer2 are effective in aligning LLMs. In
particular, we propose SteerLM 2.0, a model alignment approach that can
effectively make use of the rich multi-attribute score predicted by our reward
models. HelpSteer2 is available at
https://huggingface.co/datasets/nvidia/HelpSteer2 and code is available at
https://github.com/NVIDIA/NeMo-Aligner