HelpSteer3-Preference : Données de préférence annotées par des humains pour des tâches et langues variées

papers.abstract

Les ensembles de données de préférences sont essentiels pour entraîner des modèles de langage généralistes et capables de suivre des instructions grâce à l'apprentissage par renforcement à partir de retours humains (RLHF). Chaque nouvelle publication de données accroît les attentes pour les futures collectes, ce qui signifie qu'il existe un besoin constant d'améliorer la qualité et la diversité des données de préférences ouvertement disponibles. Pour répondre à ce besoin, nous présentons HelpSteer3-Preference, un ensemble de données de préférences de haute qualité, annoté par des humains et sous licence permissive (CC-BY-4.0), comprenant plus de 40 000 échantillons. Ces échantillons couvrent diverses applications réelles des grands modèles de langage (LLMs), y compris des tâches liées aux STEM, à la programmation et à des scénarios multilingues. En utilisant HelpSteer3-Preference, nous entraînons des modèles de récompense (RMs) qui atteignent des performances de pointe sur RM-Bench (82,4 %) et JudgeBench (73,7 %). Cela représente une amélioration substantielle (~10 % en valeur absolue) par rapport aux meilleurs résultats précédemment rapportés par les RMs existants. Nous démontrons que HelpSteer3-Preference peut également être appliqué pour entraîner des modèles de récompense génératifs et comment les modèles de politique peuvent être alignés avec RLHF en utilisant nos RMs. Ensemble de données (CC-BY-4.0) : https://huggingface.co/datasets/nvidia/HelpSteer3#preference

English

Preference datasets are essential for training general-domain, instruction-following language models with Reinforcement Learning from Human Feedback (RLHF). Each subsequent data release raises expectations for future data collection, meaning there is a constant need to advance the quality and diversity of openly available preference data. To address this need, we introduce HelpSteer3-Preference, a permissively licensed (CC-BY-4.0), high-quality, human-annotated preference dataset comprising of over 40,000 samples. These samples span diverse real-world applications of large language models (LLMs), including tasks relating to STEM, coding and multilingual scenarios. Using HelpSteer3-Preference, we train Reward Models (RMs) that achieve top performance on RM-Bench (82.4%) and JudgeBench (73.7%). This represents a substantial improvement (~10% absolute) over the previously best-reported results from existing RMs. We demonstrate HelpSteer3-Preference can also be applied to train Generative RMs and how policy models can be aligned with RLHF using our RMs. Dataset (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference

HelpSteer3-Preference : Données de préférence annotées par des humains pour des tâches et langues variées

HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages

papers.abstract

Support