HelpSteer2-Preference: Integrare le Valutazioni con le Preferenze
HelpSteer2-Preference: Complementing Ratings with Preferences
October 2, 2024
Autori: Zhilin Wang, Alexander Bukharin, Olivier Delalleau, Daniel Egert, Gerald Shen, Jiaqi Zeng, Oleksii Kuchaiev, Yi Dong
cs.AI
Abstract
I modelli di ricompensa sono fondamentali per allineare i modelli al fine di seguire istruzioni e vengono tipicamente addestrati seguendo uno dei due paradigmi popolari: lo stile di Bradley-Terry o lo stile di regressione. Tuttavia, manca evidenza che dimostri che uno dei due approcci sia migliore dell'altro, quando adeguatamente confrontati sui dati. Questo principalmente perché questi approcci richiedono dati raccolti in formati diversi (ma incompatibili), il che significa che dati adeguatamente confrontabili non sono disponibili nei dataset pubblici esistenti. Per affrontare questo problema, rilasciamo annotazioni di preferenza (progettate per l'addestramento di Bradley-Terry) per integrare le valutazioni esistenti (progettate per l'addestramento nello stile di regressione) nel dataset HelpSteer2. Per migliorare l'interpretabilità dei dati, le annotazioni di preferenza sono accompagnate da giustificazioni scritte da esseri umani. Utilizzando questi dati, conduciamo il primo confronto diretto tra i modelli di Bradley-Terry e di regressione quando adeguatamente confrontati sui dati. Sulla base delle intuizioni derivate da tale confronto, proponiamo un nuovo approccio per combinare la modellazione della ricompensa di Bradley-Terry e di regressione. Un modello Llama-3.1-70B-Instruct ottimizzato con questo approccio ottiene un punteggio di 94.1 su RewardBench, emergendo al primo posto tra oltre 140 modelli di ricompensa al 1 ottobre 2024. Dimostriamo inoltre l'efficacia di questo modello di ricompensa nell'allineare i modelli per seguire istruzioni in RLHF. Rilasciamo questo dataset in open source (licenza CC-BY-4.0) su https://huggingface.co/datasets/nvidia/HelpSteer2 e rilasciamo apertamente il modello di ricompensa addestrato su https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward.
English
Reward models are critical for aligning models to follow instructions, and
are typically trained following one of two popular paradigms: Bradley-Terry
style or Regression style. However, there is a lack of evidence that either
approach is better than the other, when adequately matched for data. This is
primarily because these approaches require data collected in different (but
incompatible) formats, meaning that adequately matched data is not available in
existing public datasets. To tackle this problem, we release preference
annotations (designed for Bradley-Terry training) to complement existing
ratings (designed for Regression style training) in the HelpSteer2 dataset. To
improve data interpretability, preference annotations are accompanied with
human-written justifications. Using this data, we conduct the first
head-to-head comparison of Bradley-Terry and Regression models when adequately
matched for data. Based on insights derived from such a comparison, we propose
a novel approach to combine Bradley-Terry and Regression reward modeling. A
Llama-3.1-70B-Instruct model tuned with this approach scores 94.1 on
RewardBench, emerging top of more than 140 reward models as of 1 Oct 2024. We
also demonstrate the effectiveness of this reward model at aligning models to
follow instructions in RLHF. We open-source this dataset (CC-BY-4.0 license) at
https://huggingface.co/datasets/nvidia/HelpSteer2 and openly release the
trained Reward Model at
https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward