ChatPaper.aiChatPaper

HelpSteer3-Präferenz: Offene, menschlich annotierte Präferenzdaten über diverse Aufgaben und Sprachen

HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages

May 16, 2025
Autoren: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Hoo-Chang Shin, Felipe Soares, Alexander Bukharin, Ellie Evans, Yi Dong, Oleksii Kuchaiev
cs.AI

Zusammenfassung

Präferenzdatensätze sind entscheidend für das Training allgemeiner, befehlsfolgender Sprachmodelle mittels Reinforcement Learning from Human Feedback (RLHF). Jede nachfolgende Datenveröffentlichung erhöht die Erwartungen an zukünftige Datensammlungen, was bedeutet, dass es einen ständigen Bedarf gibt, die Qualität und Vielfalt der öffentlich verfügbaren Präferenzdaten weiterzuentwickeln. Um diesem Bedarf gerecht zu werden, stellen wir HelpSteer3-Preference vor, einen hochwertigen, menschlich annotierten Präferenzdatensatz mit über 40.000 Proben, der unter einer freien Lizenz (CC-BY-4.0) veröffentlicht wird. Diese Proben umfassen diverse reale Anwendungsfälle großer Sprachmodelle (LLMs), einschließlich Aufgaben aus den Bereichen STEM, Programmierung und mehrsprachige Szenarien. Mit HelpSteer3-Preference trainieren wir Belohnungsmodelle (RMs), die Spitzenleistungen auf RM-Bench (82,4 %) und JudgeBench (73,7 %) erzielen. Dies stellt eine erhebliche Verbesserung (~10 % absolut) gegenüber den bisher besten berichteten Ergebnissen bestehender RMs dar. Wir zeigen, dass HelpSteer3-Preference auch für das Training generativer RMs verwendet werden kann und wie Policymodelle mit RLHF unter Verwendung unserer RMs ausgerichtet werden können. Datensatz (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference
English
Preference datasets are essential for training general-domain, instruction-following language models with Reinforcement Learning from Human Feedback (RLHF). Each subsequent data release raises expectations for future data collection, meaning there is a constant need to advance the quality and diversity of openly available preference data. To address this need, we introduce HelpSteer3-Preference, a permissively licensed (CC-BY-4.0), high-quality, human-annotated preference dataset comprising of over 40,000 samples. These samples span diverse real-world applications of large language models (LLMs), including tasks relating to STEM, coding and multilingual scenarios. Using HelpSteer3-Preference, we train Reward Models (RMs) that achieve top performance on RM-Bench (82.4%) and JudgeBench (73.7%). This represents a substantial improvement (~10% absolute) over the previously best-reported results from existing RMs. We demonstrate HelpSteer3-Preference can also be applied to train Generative RMs and how policy models can be aligned with RLHF using our RMs. Dataset (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference

Summary

AI-Generated Summary

PDF22May 20, 2025