HelpSteer2-Preference: Integrare le Valutazioni con le Preferenze

Abstract

I modelli di ricompensa sono fondamentali per allineare i modelli al fine di seguire istruzioni e vengono tipicamente addestrati seguendo uno dei due paradigmi popolari: lo stile di Bradley-Terry o lo stile di regressione. Tuttavia, manca evidenza che dimostri che uno dei due approcci sia migliore dell'altro, quando adeguatamente confrontati sui dati. Questo principalmente perché questi approcci richiedono dati raccolti in formati diversi (ma incompatibili), il che significa che dati adeguatamente confrontabili non sono disponibili nei dataset pubblici esistenti. Per affrontare questo problema, rilasciamo annotazioni di preferenza (progettate per l'addestramento di Bradley-Terry) per integrare le valutazioni esistenti (progettate per l'addestramento nello stile di regressione) nel dataset HelpSteer2. Per migliorare l'interpretabilità dei dati, le annotazioni di preferenza sono accompagnate da giustificazioni scritte da esseri umani. Utilizzando questi dati, conduciamo il primo confronto diretto tra i modelli di Bradley-Terry e di regressione quando adeguatamente confrontati sui dati. Sulla base delle intuizioni derivate da tale confronto, proponiamo un nuovo approccio per combinare la modellazione della ricompensa di Bradley-Terry e di regressione. Un modello Llama-3.1-70B-Instruct ottimizzato con questo approccio ottiene un punteggio di 94.1 su RewardBench, emergendo al primo posto tra oltre 140 modelli di ricompensa al 1 ottobre 2024. Dimostriamo inoltre l'efficacia di questo modello di ricompensa nell'allineare i modelli per seguire istruzioni in RLHF. Rilasciamo questo dataset in open source (licenza CC-BY-4.0) su https://huggingface.co/datasets/nvidia/HelpSteer2 e rilasciamo apertamente il modello di ricompensa addestrato su https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward.

English

Reward models are critical for aligning models to follow instructions, and are typically trained following one of two popular paradigms: Bradley-Terry style or Regression style. However, there is a lack of evidence that either approach is better than the other, when adequately matched for data. This is primarily because these approaches require data collected in different (but incompatible) formats, meaning that adequately matched data is not available in existing public datasets. To tackle this problem, we release preference annotations (designed for Bradley-Terry training) to complement existing ratings (designed for Regression style training) in the HelpSteer2 dataset. To improve data interpretability, preference annotations are accompanied with human-written justifications. Using this data, we conduct the first head-to-head comparison of Bradley-Terry and Regression models when adequately matched for data. Based on insights derived from such a comparison, we propose a novel approach to combine Bradley-Terry and Regression reward modeling. A Llama-3.1-70B-Instruct model tuned with this approach scores 94.1 on RewardBench, emerging top of more than 140 reward models as of 1 Oct 2024. We also demonstrate the effectiveness of this reward model at aligning models to follow instructions in RLHF. We open-source this dataset (CC-BY-4.0 license) at https://huggingface.co/datasets/nvidia/HelpSteer2 and openly release the trained Reward Model at https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward

HelpSteer2-Preference: Integrare le Valutazioni con le Preferenze

HelpSteer2-Preference: Complementing Ratings with Preferences

Abstract

Support