HelpSteer3-Preference: 다양한 작업과 언어에 걸친 개방형 인간 주석 선호도 데이터

초록

선호도 데이터셋은 인간 피드백 강화 학습(RLHF)을 통해 일반 도메인 지시 수행 언어 모델을 훈련하는 데 필수적입니다. 각 후속 데이터 릴리스는 향후 데이터 수집에 대한 기대치를 높이며, 이는 공개적으로 이용 가능한 선호도 데이터의 품질과 다양성을 지속적으로 발전시켜야 할 필요가 있음을 의미합니다. 이러한 필요를 해결하기 위해, 우리는 CC-BY-4.0 라이선스로 제공되는 고품질의 인간 주석 선호도 데이터셋인 HelpSteer3-Preference를 소개합니다. 이 데이터셋은 40,000개 이상의 샘플로 구성되어 있으며, STEM, 코딩 및 다국어 시나리오와 관련된 작업을 포함한 대규모 언어 모델(LLM)의 다양한 실제 응용 사례를 다룹니다. HelpSteer3-Preference를 사용하여, 우리는 RM-Bench(82.4%)와 JudgeBench(73.7%)에서 최고 성능을 달성하는 보상 모델(RM)을 훈련했습니다. 이는 기존 RM에서 보고된 최고 결과보다 약 10% 절대적인 개선을 나타냅니다. 우리는 HelpSteer3-Preference가 생성형 RM 훈련에도 적용될 수 있으며, 우리의 RM을 사용하여 정책 모델을 RLHF와 정렬할 수 있는 방법을 보여줍니다. 데이터셋(CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference

English

Preference datasets are essential for training general-domain, instruction-following language models with Reinforcement Learning from Human Feedback (RLHF). Each subsequent data release raises expectations for future data collection, meaning there is a constant need to advance the quality and diversity of openly available preference data. To address this need, we introduce HelpSteer3-Preference, a permissively licensed (CC-BY-4.0), high-quality, human-annotated preference dataset comprising of over 40,000 samples. These samples span diverse real-world applications of large language models (LLMs), including tasks relating to STEM, coding and multilingual scenarios. Using HelpSteer3-Preference, we train Reward Models (RMs) that achieve top performance on RM-Bench (82.4%) and JudgeBench (73.7%). This represents a substantial improvement (~10% absolute) over the previously best-reported results from existing RMs. We demonstrate HelpSteer3-Preference can also be applied to train Generative RMs and how policy models can be aligned with RLHF using our RMs. Dataset (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference

HelpSteer3-Preference: 다양한 작업과 언어에 걸친 개방형 인간 주석 선호도 데이터

HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages

초록

Support