HelpSteer3-Preference : Données de préférence annotées par des humains pour des tâches et langues variées
HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages
May 16, 2025
Auteurs: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Hoo-Chang Shin, Felipe Soares, Alexander Bukharin, Ellie Evans, Yi Dong, Oleksii Kuchaiev
cs.AI
Résumé
Les ensembles de données de préférences sont essentiels pour entraîner des modèles de langage généralistes et capables de suivre des instructions grâce à l'apprentissage par renforcement à partir de retours humains (RLHF). Chaque nouvelle publication de données accroît les attentes pour les futures collectes, ce qui signifie qu'il existe un besoin constant d'améliorer la qualité et la diversité des données de préférences ouvertement disponibles. Pour répondre à ce besoin, nous présentons HelpSteer3-Preference, un ensemble de données de préférences de haute qualité, annoté par des humains et sous licence permissive (CC-BY-4.0), comprenant plus de 40 000 échantillons. Ces échantillons couvrent diverses applications réelles des grands modèles de langage (LLMs), y compris des tâches liées aux STEM, à la programmation et à des scénarios multilingues. En utilisant HelpSteer3-Preference, nous entraînons des modèles de récompense (RMs) qui atteignent des performances de pointe sur RM-Bench (82,4 %) et JudgeBench (73,7 %). Cela représente une amélioration substantielle (~10 % en valeur absolue) par rapport aux meilleurs résultats précédemment rapportés par les RMs existants. Nous démontrons que HelpSteer3-Preference peut également être appliqué pour entraîner des modèles de récompense génératifs et comment les modèles de politique peuvent être alignés avec RLHF en utilisant nos RMs. Ensemble de données (CC-BY-4.0) : https://huggingface.co/datasets/nvidia/HelpSteer3#preference
English
Preference datasets are essential for training general-domain,
instruction-following language models with Reinforcement Learning from Human
Feedback (RLHF). Each subsequent data release raises expectations for future
data collection, meaning there is a constant need to advance the quality and
diversity of openly available preference data. To address this need, we
introduce HelpSteer3-Preference, a permissively licensed (CC-BY-4.0),
high-quality, human-annotated preference dataset comprising of over 40,000
samples. These samples span diverse real-world applications of large language
models (LLMs), including tasks relating to STEM, coding and multilingual
scenarios. Using HelpSteer3-Preference, we train Reward Models (RMs) that
achieve top performance on RM-Bench (82.4%) and JudgeBench (73.7%). This
represents a substantial improvement (~10% absolute) over the previously
best-reported results from existing RMs. We demonstrate HelpSteer3-Preference
can also be applied to train Generative RMs and how policy models can be
aligned with RLHF using our RMs. Dataset (CC-BY-4.0):
https://huggingface.co/datasets/nvidia/HelpSteer3#preferenceSummary
AI-Generated Summary