HelpSteer2: Open-source dataset voor het trainen van toppresterende beloningsmodellen
HelpSteer2: Open-source dataset for training top-performing reward models
June 12, 2024
Auteurs: Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi Zeng, Gerald Shen, Daniel Egert, Jimmy J. Zhang, Makesh Narsimhan Sreedhar, Oleksii Kuchaiev
cs.AI
Samenvatting
Hoogwaardige voorkeursdatasets zijn essentieel voor het trainen van beloningsmodellen
die grote taalmmodellen (LLM's) effectief kunnen begeleiden bij het genereren
van hoogwaardige reacties die aansluiten bij menselijke voorkeuren. Naarmate LLM's krachtiger worden
en beter afgestemd, moeten openbaar gelicentieerde voorkeursdatasets, zoals Open
Assistant, HH-RLHF en HelpSteer, worden bijgewerkt om effectief te blijven voor
beloningsmodellering. Methoden die voorkeursdata destilleren uit propriëtaire LLM's zoals
GPT-4 hebben beperkingen op commercieel gebruik die worden opgelegd door modelaanbieders. Om
zowel de gegenereerde reacties als de kwaliteit van attribuutlabeling te verbeteren, brengen wij
HelpSteer2 uit, een openbaar gelicentieerde voorkeursdataset (CC-BY-4.0).
Met behulp van een krachtig intern basismodel getraind op HelpSteer2, zijn wij in staat
om de SOTA-score (92,0%) te behalen op de primaire dataset van Reward-Bench, waarmee wij
de momenteel vermelde open en propriëtaire modellen overtreffen, vanaf 12 juni 2024. Opmerkelijk is dat
HelpSteer2 slechts uit tienduizend reactieparen bestaat, een orde van grootte
minder dan bestaande voorkeursdatasets (bijv. HH-RLHF), wat het zeer
efficiënt maakt voor het trainen van beloningsmodellen. Onze uitgebreide experimenten tonen aan
dat beloningsmodellen getraind met HelpSteer2 effectief zijn in het afstemmen van LLM's. In
het bijzonder stellen wij SteerLM 2.0 voor, een modelafstemmingsbenadering die
effectief gebruik kan maken van de rijke multi-attribuutscore die door onze beloningsmodellen
wordt voorspeld. HelpSteer2 is beschikbaar op
https://huggingface.co/datasets/nvidia/HelpSteer2 en de code is beschikbaar op
https://github.com/NVIDIA/NeMo-Aligner.
English
High-quality preference datasets are essential for training reward models
that can effectively guide large language models (LLMs) in generating
high-quality responses aligned with human preferences. As LLMs become stronger
and better aligned, permissively licensed preference datasets, such as Open
Assistant, HH-RLHF, and HelpSteer need to be updated to remain effective for
reward modeling. Methods that distil preference data from proprietary LLMs such
as GPT-4 have restrictions on commercial usage imposed by model providers. To
improve upon both generated responses and attribute labeling quality, we
release HelpSteer2, a permissively licensed preference dataset (CC-BY-4.0).
Using a powerful internal base model trained on HelpSteer2, we are able to
achieve the SOTA score (92.0%) on Reward-Bench's primary dataset, outperforming
currently listed open and proprietary models, as of June 12th, 2024. Notably,
HelpSteer2 consists of only ten thousand response pairs, an order of magnitude
fewer than existing preference datasets (e.g., HH-RLHF), which makes it highly
efficient for training reward models. Our extensive experiments demonstrate
that reward models trained with HelpSteer2 are effective in aligning LLMs. In
particular, we propose SteerLM 2.0, a model alignment approach that can
effectively make use of the rich multi-attribute score predicted by our reward
models. HelpSteer2 is available at
https://huggingface.co/datasets/nvidia/HelpSteer2 and code is available at
https://github.com/NVIDIA/NeMo-Aligner