HelpSteer3-Preference: Dati di Preferenza Aperti Annotati da Umani su Compiti e Lingue Diversi
HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages
May 16, 2025
Autori: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Hoo-Chang Shin, Felipe Soares, Alexander Bukharin, Ellie Evans, Yi Dong, Oleksii Kuchaiev
cs.AI
Abstract
I dataset di preferenza sono essenziali per addestrare modelli linguistici generalisti che seguono istruzioni utilizzando il Reinforcement Learning from Human Feedback (RLHF). Ogni nuova release di dati aumenta le aspettative per le future raccolte di dati, il che significa che c'è un costante bisogno di migliorare la qualità e la diversità dei dati di preferenza disponibili pubblicamente. Per affrontare questa esigenza, introduciamo HelpSteer3-Preference, un dataset di preferenza di alta qualità, annotato da esseri umani e con licenza permissiva (CC-BY-4.0), che comprende oltre 40.000 campioni. Questi campioni coprono una vasta gamma di applicazioni reali dei grandi modelli linguistici (LLM), inclusi compiti relativi a STEM, programmazione e scenari multilingue. Utilizzando HelpSteer3-Preference, addestriamo Modelli di Ricompensa (RMs) che raggiungono prestazioni eccellenti su RM-Bench (82,4%) e JudgeBench (73,7%). Questo rappresenta un miglioramento sostanziale (~10% in termini assoluti) rispetto ai migliori risultati precedentemente riportati da RMs esistenti. Dimostriamo che HelpSteer3-Preference può anche essere utilizzato per addestrare Modelli di Ricompensa Generativi e come i modelli di policy possano essere allineati con RLHF utilizzando i nostri RMs. Dataset (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference
English
Preference datasets are essential for training general-domain,
instruction-following language models with Reinforcement Learning from Human
Feedback (RLHF). Each subsequent data release raises expectations for future
data collection, meaning there is a constant need to advance the quality and
diversity of openly available preference data. To address this need, we
introduce HelpSteer3-Preference, a permissively licensed (CC-BY-4.0),
high-quality, human-annotated preference dataset comprising of over 40,000
samples. These samples span diverse real-world applications of large language
models (LLMs), including tasks relating to STEM, coding and multilingual
scenarios. Using HelpSteer3-Preference, we train Reward Models (RMs) that
achieve top performance on RM-Bench (82.4%) and JudgeBench (73.7%). This
represents a substantial improvement (~10% absolute) over the previously
best-reported results from existing RMs. We demonstrate HelpSteer3-Preference
can also be applied to train Generative RMs and how policy models can be
aligned with RLHF using our RMs. Dataset (CC-BY-4.0):
https://huggingface.co/datasets/nvidia/HelpSteer3#preference