HelpSteer3-Preference: Open Menselijk-Geannoteerde Voorkeursgegevens over Diverse Taken en Talen
HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages
May 16, 2025
Auteurs: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Hoo-Chang Shin, Felipe Soares, Alexander Bukharin, Ellie Evans, Yi Dong, Oleksii Kuchaiev
cs.AI
Samenvatting
Voorkeursdatasets zijn essentieel voor het trainen van algemene, instructievolgende taalmmodellen met Reinforcement Learning from Human Feedback (RLHF). Elke nieuwe datarelease verhoogt de verwachtingen voor toekomstige datacollectie, wat betekent dat er een constante behoefte is aan het verbeteren van de kwaliteit en diversiteit van openbaar beschikbare voorkeursdata. Om aan deze behoefte tegemoet te komen, introduceren we HelpSteer3-Preference, een hoogwaardige, door mensen geannoteerde voorkeursdataset met een permissieve licentie (CC-BY-4.0), bestaande uit meer dan 40.000 samples. Deze samples beslaan diverse real-world toepassingen van grote taalmmodellen (LLMs), inclusief taken gerelateerd aan STEM, programmeren en meertalige scenario's. Met behulp van HelpSteer3-Preference trainen we Reward Models (RMs) die topprestaties behalen op RM-Bench (82,4%) en JudgeBench (73,7%). Dit vertegenwoordigt een aanzienlijke verbetering (~10% absoluut) ten opzichte van de eerder gerapporteerde beste resultaten van bestaande RMs. We demonstreren dat HelpSteer3-Preference ook kan worden toegepast voor het trainen van Generative RMs en hoe beleidsmodellen kunnen worden afgestemd met RLHF met behulp van onze RMs. Dataset (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference
English
Preference datasets are essential for training general-domain,
instruction-following language models with Reinforcement Learning from Human
Feedback (RLHF). Each subsequent data release raises expectations for future
data collection, meaning there is a constant need to advance the quality and
diversity of openly available preference data. To address this need, we
introduce HelpSteer3-Preference, a permissively licensed (CC-BY-4.0),
high-quality, human-annotated preference dataset comprising of over 40,000
samples. These samples span diverse real-world applications of large language
models (LLMs), including tasks relating to STEM, coding and multilingual
scenarios. Using HelpSteer3-Preference, we train Reward Models (RMs) that
achieve top performance on RM-Bench (82.4%) and JudgeBench (73.7%). This
represents a substantial improvement (~10% absolute) over the previously
best-reported results from existing RMs. We demonstrate HelpSteer3-Preference
can also be applied to train Generative RMs and how policy models can be
aligned with RLHF using our RMs. Dataset (CC-BY-4.0):
https://huggingface.co/datasets/nvidia/HelpSteer3#preferenceSummary
AI-Generated Summary