HelpSteer2: Dataset open-source per l'addestramento di modelli di ricompensa ad alte prestazioni
HelpSteer2: Open-source dataset for training top-performing reward models
June 12, 2024
Autori: Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi Zeng, Gerald Shen, Daniel Egert, Jimmy J. Zhang, Makesh Narsimhan Sreedhar, Oleksii Kuchaiev
cs.AI
Abstract
Dataset di preferenze di alta qualità sono essenziali per addestrare modelli di ricompensa
che possano guidare efficacemente i grandi modelli linguistici (LLM) nella generazione
di risposte di alta qualità allineate con le preferenze umane. Man mano che i LLM diventano più potenti
e meglio allineati, i dataset di preferenze con licenza permissiva, come Open
Assistant, HH-RLHF e HelpSteer, devono essere aggiornati per rimanere efficaci per
la modellazione delle ricompense. I metodi che distillano dati di preferenza da LLM proprietari come
GPT-4 hanno restrizioni sull'uso commerciale imposte dai fornitori dei modelli. Per
migliorare sia la qualità delle risposte generate che l'etichettatura degli attributi, abbiamo
rilasciato HelpSteer2, un dataset di preferenze con licenza permissiva (CC-BY-4.0).
Utilizzando un potente modello base interno addestrato su HelpSteer2, siamo stati in grado di
raggiungere il punteggio SOTA (92,0%) sul dataset principale di Reward-Bench, superando
i modelli aperti e proprietari attualmente elencati, al 12 giugno 2024. È importante notare che
HelpSteer2 è composto da solo diecimila coppie di risposte, un ordine di grandezza
inferiore rispetto ai dataset di preferenze esistenti (ad esempio, HH-RLHF), il che lo rende altamente
efficiente per l'addestramento di modelli di ricompensa. I nostri esperimenti estesi dimostrano
che i modelli di ricompensa addestrati con HelpSteer2 sono efficaci nell'allineare i LLM. In
particolare, proponiamo SteerLM 2.0, un approccio di allineamento dei modelli che può
utilizzare efficacemente il ricco punteggio multi-attributo previsto dai nostri modelli di ricompensa. HelpSteer2 è disponibile su
https://huggingface.co/datasets/nvidia/HelpSteer2 e il codice è disponibile su
https://github.com/NVIDIA/NeMo-Aligner
English
High-quality preference datasets are essential for training reward models
that can effectively guide large language models (LLMs) in generating
high-quality responses aligned with human preferences. As LLMs become stronger
and better aligned, permissively licensed preference datasets, such as Open
Assistant, HH-RLHF, and HelpSteer need to be updated to remain effective for
reward modeling. Methods that distil preference data from proprietary LLMs such
as GPT-4 have restrictions on commercial usage imposed by model providers. To
improve upon both generated responses and attribute labeling quality, we
release HelpSteer2, a permissively licensed preference dataset (CC-BY-4.0).
Using a powerful internal base model trained on HelpSteer2, we are able to
achieve the SOTA score (92.0%) on Reward-Bench's primary dataset, outperforming
currently listed open and proprietary models, as of June 12th, 2024. Notably,
HelpSteer2 consists of only ten thousand response pairs, an order of magnitude
fewer than existing preference datasets (e.g., HH-RLHF), which makes it highly
efficient for training reward models. Our extensive experiments demonstrate
that reward models trained with HelpSteer2 are effective in aligning LLMs. In
particular, we propose SteerLM 2.0, a model alignment approach that can
effectively make use of the rich multi-attribute score predicted by our reward
models. HelpSteer2 is available at
https://huggingface.co/datasets/nvidia/HelpSteer2 and code is available at
https://github.com/NVIDIA/NeMo-Aligner