ChatPaper.aiChatPaper

HelpSteer2: Open-Source-Datensatz zur Schulung von leistungsstarken Belohnungsmodellen

HelpSteer2: Open-source dataset for training top-performing reward models

June 12, 2024
Autoren: Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi Zeng, Gerald Shen, Daniel Egert, Jimmy J. Zhang, Makesh Narsimhan Sreedhar, Oleksii Kuchaiev
cs.AI

Zusammenfassung

Hochwertige Präferenzdatensätze sind entscheidend für das Training von Belohnungsmodellen, die große Sprachmodelle effektiv anleiten können, um hochwertige Antworten zu generieren, die mit menschlichen Präferenzen übereinstimmen. Mit zunehmender Stärke und besserer Ausrichtung der Sprachmodelle müssen permissiv lizenzierte Präferenzdatensätze wie Open Assistant, HH-RLHF und HelpSteer aktualisiert werden, um für das Belohnungsmodellieren wirksam zu bleiben. Methoden, die Präferenzdaten aus proprietären Sprachmodellen wie GPT-4 extrahieren, unterliegen Beschränkungen hinsichtlich der kommerziellen Nutzung, die von den Modellanbietern auferlegt werden. Um sowohl die generierten Antworten als auch die Qualität der Attributkennzeichnung zu verbessern, veröffentlichen wir HelpSteer2, einen permissiv lizenzierten Präferenzdatensatz (CC-BY-4.0). Mit einem leistungsstarken internen Basismodell, das auf HelpSteer2 trainiert ist, erreichen wir den SOTA-Score (92,0%) auf dem primären Datensatz von Reward-Bench und übertreffen derzeit gelistete offene und proprietäre Modelle, Stand 12. Juni 2024. Beachtenswert ist, dass HelpSteer2 nur zehntausend Antwortpaare umfasst, eine Größenordnung weniger als bestehende Präferenzdatensätze (z. B. HH-RLHF), was es äußerst effizient für das Training von Belohnungsmodellen macht. Unsere umfangreichen Experimente zeigen, dass Belohnungsmodelle, die mit HelpSteer2 trainiert sind, effektiv sind, um die Sprachmodelle auszurichten. Insbesondere schlagen wir SteerLM 2.0 vor, einen Modellausrichtungsansatz, der den reichhaltigen Multi-Attribut-Score nutzt, der von unseren Belohnungsmodellen vorhergesagt wird. HelpSteer2 ist unter https://huggingface.co/datasets/nvidia/HelpSteer2 verfügbar, und der Code ist unter https://github.com/NVIDIA/NeMo-Aligner verfügbar.
English
High-quality preference datasets are essential for training reward models that can effectively guide large language models (LLMs) in generating high-quality responses aligned with human preferences. As LLMs become stronger and better aligned, permissively licensed preference datasets, such as Open Assistant, HH-RLHF, and HelpSteer need to be updated to remain effective for reward modeling. Methods that distil preference data from proprietary LLMs such as GPT-4 have restrictions on commercial usage imposed by model providers. To improve upon both generated responses and attribute labeling quality, we release HelpSteer2, a permissively licensed preference dataset (CC-BY-4.0). Using a powerful internal base model trained on HelpSteer2, we are able to achieve the SOTA score (92.0%) on Reward-Bench's primary dataset, outperforming currently listed open and proprietary models, as of June 12th, 2024. Notably, HelpSteer2 consists of only ten thousand response pairs, an order of magnitude fewer than existing preference datasets (e.g., HH-RLHF), which makes it highly efficient for training reward models. Our extensive experiments demonstrate that reward models trained with HelpSteer2 are effective in aligning LLMs. In particular, we propose SteerLM 2.0, a model alignment approach that can effectively make use of the rich multi-attribute score predicted by our reward models. HelpSteer2 is available at https://huggingface.co/datasets/nvidia/HelpSteer2 and code is available at https://github.com/NVIDIA/NeMo-Aligner

Summary

AI-Generated Summary

PDF193December 6, 2024