HelpSteer3-Preference: Dati di Preferenza Aperti Annotati da Umani su Compiti e Lingue Diversi

Abstract

I dataset di preferenza sono essenziali per addestrare modelli linguistici generalisti che seguono istruzioni utilizzando il Reinforcement Learning from Human Feedback (RLHF). Ogni nuova release di dati aumenta le aspettative per le future raccolte di dati, il che significa che c'è un costante bisogno di migliorare la qualità e la diversità dei dati di preferenza disponibili pubblicamente. Per affrontare questa esigenza, introduciamo HelpSteer3-Preference, un dataset di preferenza di alta qualità, annotato da esseri umani e con licenza permissiva (CC-BY-4.0), che comprende oltre 40.000 campioni. Questi campioni coprono una vasta gamma di applicazioni reali dei grandi modelli linguistici (LLM), inclusi compiti relativi a STEM, programmazione e scenari multilingue. Utilizzando HelpSteer3-Preference, addestriamo Modelli di Ricompensa (RMs) che raggiungono prestazioni eccellenti su RM-Bench (82,4%) e JudgeBench (73,7%). Questo rappresenta un miglioramento sostanziale (~10% in termini assoluti) rispetto ai migliori risultati precedentemente riportati da RMs esistenti. Dimostriamo che HelpSteer3-Preference può anche essere utilizzato per addestrare Modelli di Ricompensa Generativi e come i modelli di policy possano essere allineati con RLHF utilizzando i nostri RMs. Dataset (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference

English

Preference datasets are essential for training general-domain, instruction-following language models with Reinforcement Learning from Human Feedback (RLHF). Each subsequent data release raises expectations for future data collection, meaning there is a constant need to advance the quality and diversity of openly available preference data. To address this need, we introduce HelpSteer3-Preference, a permissively licensed (CC-BY-4.0), high-quality, human-annotated preference dataset comprising of over 40,000 samples. These samples span diverse real-world applications of large language models (LLMs), including tasks relating to STEM, coding and multilingual scenarios. Using HelpSteer3-Preference, we train Reward Models (RMs) that achieve top performance on RM-Bench (82.4%) and JudgeBench (73.7%). This represents a substantial improvement (~10% absolute) over the previously best-reported results from existing RMs. We demonstrate HelpSteer3-Preference can also be applied to train Generative RMs and how policy models can be aligned with RLHF using our RMs. Dataset (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference

HelpSteer3-Preference: Dati di Preferenza Aperti Annotati da Umani su Compiti e Lingue Diversi

HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages

Abstract

Support