HelpSteer2: 최고 성능의 보상 모델 학습을 위한 오픈소스 데이터셋
HelpSteer2: Open-source dataset for training top-performing reward models
June 12, 2024
저자: Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi Zeng, Gerald Shen, Daniel Egert, Jimmy J. Zhang, Makesh Narsimhan Sreedhar, Oleksii Kuchaiev
cs.AI
초록
고품질의 선호도 데이터셋은 인간의 선호도에 부합하는 고품질 응답을 생성하도록 대규모 언어 모델(LLM)을 효과적으로 안내할 수 있는 보상 모델을 훈련하는 데 필수적입니다. LLM이 더 강력해지고 더 잘 정렬될수록, Open Assistant, HH-RLHF, HelpSteer와 같은 허가적 라이선스의 선호도 데이터셋은 보상 모델링에 효과적으로 사용되기 위해 업데이트가 필요합니다. GPT-4와 같은 독점 LLM에서 선호도 데이터를 추출하는 방법은 모델 제공자에 의해 상업적 사용에 제한이 있습니다. 생성된 응답과 속성 라벨링 품질을 모두 개선하기 위해, 우리는 허가적 라이선스(CC-BY-4.0)의 선호도 데이터셋인 HelpSteer2를 공개합니다. HelpSteer2로 훈련된 강력한 내부 기본 모델을 사용하여, 2024년 6월 12일 기준으로 Reward-Bench의 주요 데이터셋에서 SOTA 점수(92.0%)를 달성하여 현재 공개 및 독점 모델을 능가했습니다. 특히, HelpSteer2는 기존 선호도 데이터셋(예: HH-RLHF)보다 한 차원 적은 1만 개의 응답 쌍으로 구성되어 있어 보상 모델 훈련에 매우 효율적입니다. 우리의 광범위한 실험은 HelpSteer2로 훈련된 보상 모델이 LLM 정렬에 효과적임을 보여줍니다. 특히, 우리는 보상 모델이 예측한 풍부한 다중 속성 점수를 효과적으로 활용할 수 있는 모델 정렬 접근법인 SteerLM 2.0을 제안합니다. HelpSteer2는 https://huggingface.co/datasets/nvidia/HelpSteer2에서 확인할 수 있으며, 코드는 https://github.com/NVIDIA/NeMo-Aligner에서 확인할 수 있습니다.
English
High-quality preference datasets are essential for training reward models
that can effectively guide large language models (LLMs) in generating
high-quality responses aligned with human preferences. As LLMs become stronger
and better aligned, permissively licensed preference datasets, such as Open
Assistant, HH-RLHF, and HelpSteer need to be updated to remain effective for
reward modeling. Methods that distil preference data from proprietary LLMs such
as GPT-4 have restrictions on commercial usage imposed by model providers. To
improve upon both generated responses and attribute labeling quality, we
release HelpSteer2, a permissively licensed preference dataset (CC-BY-4.0).
Using a powerful internal base model trained on HelpSteer2, we are able to
achieve the SOTA score (92.0%) on Reward-Bench's primary dataset, outperforming
currently listed open and proprietary models, as of June 12th, 2024. Notably,
HelpSteer2 consists of only ten thousand response pairs, an order of magnitude
fewer than existing preference datasets (e.g., HH-RLHF), which makes it highly
efficient for training reward models. Our extensive experiments demonstrate
that reward models trained with HelpSteer2 are effective in aligning LLMs. In
particular, we propose SteerLM 2.0, a model alignment approach that can
effectively make use of the rich multi-attribute score predicted by our reward
models. HelpSteer2 is available at
https://huggingface.co/datasets/nvidia/HelpSteer2 and code is available at
https://github.com/NVIDIA/NeMo-AlignerSummary
AI-Generated Summary