HelpSteer3-Präferenz: Offene, menschlich annotierte Präferenzdaten über diverse Aufgaben und Sprachen
HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages
May 16, 2025
Autoren: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Hoo-Chang Shin, Felipe Soares, Alexander Bukharin, Ellie Evans, Yi Dong, Oleksii Kuchaiev
cs.AI
Zusammenfassung
Präferenzdatensätze sind entscheidend für das Training allgemeiner, befehlsfolgender Sprachmodelle mittels Reinforcement Learning from Human Feedback (RLHF). Jede nachfolgende Datenveröffentlichung erhöht die Erwartungen an zukünftige Datensammlungen, was bedeutet, dass es einen ständigen Bedarf gibt, die Qualität und Vielfalt der öffentlich verfügbaren Präferenzdaten weiterzuentwickeln. Um diesem Bedarf gerecht zu werden, stellen wir HelpSteer3-Preference vor, einen hochwertigen, menschlich annotierten Präferenzdatensatz mit über 40.000 Proben, der unter einer freien Lizenz (CC-BY-4.0) veröffentlicht wird. Diese Proben umfassen diverse reale Anwendungsfälle großer Sprachmodelle (LLMs), einschließlich Aufgaben aus den Bereichen STEM, Programmierung und mehrsprachige Szenarien. Mit HelpSteer3-Preference trainieren wir Belohnungsmodelle (RMs), die Spitzenleistungen auf RM-Bench (82,4 %) und JudgeBench (73,7 %) erzielen. Dies stellt eine erhebliche Verbesserung (~10 % absolut) gegenüber den bisher besten berichteten Ergebnissen bestehender RMs dar. Wir zeigen, dass HelpSteer3-Preference auch für das Training generativer RMs verwendet werden kann und wie Policymodelle mit RLHF unter Verwendung unserer RMs ausgerichtet werden können. Datensatz (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference
English
Preference datasets are essential for training general-domain,
instruction-following language models with Reinforcement Learning from Human
Feedback (RLHF). Each subsequent data release raises expectations for future
data collection, meaning there is a constant need to advance the quality and
diversity of openly available preference data. To address this need, we
introduce HelpSteer3-Preference, a permissively licensed (CC-BY-4.0),
high-quality, human-annotated preference dataset comprising of over 40,000
samples. These samples span diverse real-world applications of large language
models (LLMs), including tasks relating to STEM, coding and multilingual
scenarios. Using HelpSteer3-Preference, we train Reward Models (RMs) that
achieve top performance on RM-Bench (82.4%) and JudgeBench (73.7%). This
represents a substantial improvement (~10% absolute) over the previously
best-reported results from existing RMs. We demonstrate HelpSteer3-Preference
can also be applied to train Generative RMs and how policy models can be
aligned with RLHF using our RMs. Dataset (CC-BY-4.0):
https://huggingface.co/datasets/nvidia/HelpSteer3#preferenceSummary
AI-Generated Summary