ChatPaper.aiChatPaper

HelpSteer2: Conjunto de dados de código aberto para treinar modelos de recompensa de alto desempenho

HelpSteer2: Open-source dataset for training top-performing reward models

June 12, 2024
Autores: Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi Zeng, Gerald Shen, Daniel Egert, Jimmy J. Zhang, Makesh Narsimhan Sreedhar, Oleksii Kuchaiev
cs.AI

Resumo

Conjuntos de dados de preferência de alta qualidade são essenciais para treinar modelos de recompensa que possam guiar efetivamente grandes modelos de linguagem (LLMs) na geração de respostas de alta qualidade alinhadas com as preferências humanas. À medida que os LLMs se tornam mais poderosos e melhor alinhados, conjuntos de dados de preferência com licenças permissivas, como Open Assistant, HH-RLHF e HelpSteer, precisam ser atualizados para permanecerem eficazes na modelagem de recompensa. Métodos que extraem dados de preferência de LLMs proprietários, como o GPT-4, têm restrições de uso comercial impostas pelos provedores dos modelos. Para melhorar tanto a qualidade das respostas geradas quanto a rotulagem de atributos, lançamos o HelpSteer2, um conjunto de dados de preferência com licença permissiva (CC-BY-4.0). Usando um modelo base interno poderoso treinado no HelpSteer2, conseguimos alcançar a pontuação SOTA (92,0%) no conjunto de dados principal do Reward-Bench, superando os modelos abertos e proprietários atualmente listados, em 12 de junho de 2024. Notavelmente, o HelpSteer2 consiste em apenas dez mil pares de respostas, uma ordem de magnitude menor do que os conjuntos de dados de preferência existentes (por exemplo, HH-RLHF), o que o torna altamente eficiente para o treinamento de modelos de recompensa. Nossos extensos experimentos demonstram que os modelos de recompensa treinados com o HelpSteer2 são eficazes no alinhamento de LLMs. Em particular, propomos o SteerLM 2.0, uma abordagem de alinhamento de modelos que pode efetivamente utilizar a rica pontuação multi-atributo prevista por nossos modelos de recompensa. O HelpSteer2 está disponível em https://huggingface.co/datasets/nvidia/HelpSteer2 e o código está disponível em https://github.com/NVIDIA/NeMo-Aligner.
English
High-quality preference datasets are essential for training reward models that can effectively guide large language models (LLMs) in generating high-quality responses aligned with human preferences. As LLMs become stronger and better aligned, permissively licensed preference datasets, such as Open Assistant, HH-RLHF, and HelpSteer need to be updated to remain effective for reward modeling. Methods that distil preference data from proprietary LLMs such as GPT-4 have restrictions on commercial usage imposed by model providers. To improve upon both generated responses and attribute labeling quality, we release HelpSteer2, a permissively licensed preference dataset (CC-BY-4.0). Using a powerful internal base model trained on HelpSteer2, we are able to achieve the SOTA score (92.0%) on Reward-Bench's primary dataset, outperforming currently listed open and proprietary models, as of June 12th, 2024. Notably, HelpSteer2 consists of only ten thousand response pairs, an order of magnitude fewer than existing preference datasets (e.g., HH-RLHF), which makes it highly efficient for training reward models. Our extensive experiments demonstrate that reward models trained with HelpSteer2 are effective in aligning LLMs. In particular, we propose SteerLM 2.0, a model alignment approach that can effectively make use of the rich multi-attribute score predicted by our reward models. HelpSteer2 is available at https://huggingface.co/datasets/nvidia/HelpSteer2 and code is available at https://github.com/NVIDIA/NeMo-Aligner
PDF193December 6, 2024