HelpSteer2-Präferenz: Ergänzung von Bewertungen mit Präferenzen
HelpSteer2-Preference: Complementing Ratings with Preferences
October 2, 2024
Autoren: Zhilin Wang, Alexander Bukharin, Olivier Delalleau, Daniel Egert, Gerald Shen, Jiaqi Zeng, Oleksii Kuchaiev, Yi Dong
cs.AI
Zusammenfassung
Belohnungsmodelle sind entscheidend, um Modelle darauf auszurichten, Anweisungen zu befolgen, und werden in der Regel gemäß eines der beiden beliebten Paradigmen trainiert: im Stil von Bradley-Terry oder im Regressionsstil. Es fehlt jedoch an Beweisen dafür, dass der eine Ansatz besser ist als der andere, wenn die Daten angemessen abgeglichen sind. Dies liegt hauptsächlich daran, dass diese Ansätze Daten erfordern, die in verschiedenen (aber inkompatiblen) Formaten gesammelt wurden, was bedeutet, dass angemessen abgeglichene Daten in vorhandenen öffentlichen Datensätzen nicht verfügbar sind. Um dieses Problem anzugehen, veröffentlichen wir Präferenzannotationen (entwickelt für das Bradley-Terry-Training), um vorhandene Bewertungen (entwickelt für das Regressionsstil-Training) im HelpSteer2-Datensatz zu ergänzen. Zur Verbesserung der Dateninterpretierbarkeit werden den Präferenzannotationen von Menschen verfasste Begründungen beigefügt. Unter Verwendung dieser Daten führen wir den ersten direkten Vergleich von Bradley-Terry- und Regressionsmodellen durch, wenn die Daten angemessen abgeglichen sind. Basierend auf Erkenntnissen aus einem solchen Vergleich schlagen wir einen neuartigen Ansatz vor, um Bradley-Terry- und Regressions-Belohnungsmodelle zu kombinieren. Ein mit diesem Ansatz abgestimmtes Llama-3.1-70B-Instruct-Modell erzielt auf RewardBench 94,1 Punkte und liegt damit am 1. Oktober 2024 an der Spitze von über 140 Belohnungsmodellen. Wir zeigen auch die Wirksamkeit dieses Belohnungsmodells bei der Ausrichtung von Modellen darauf, Anweisungen in RLHF zu befolgen. Wir stellen diesen Datensatz unter einer CC-BY-4.0-Lizenz auf https://huggingface.co/datasets/nvidia/HelpSteer2 als Open Source zur Verfügung und veröffentlichen das trainierte Belohnungsmodell unter https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward öffentlich.
English
Reward models are critical for aligning models to follow instructions, and
are typically trained following one of two popular paradigms: Bradley-Terry
style or Regression style. However, there is a lack of evidence that either
approach is better than the other, when adequately matched for data. This is
primarily because these approaches require data collected in different (but
incompatible) formats, meaning that adequately matched data is not available in
existing public datasets. To tackle this problem, we release preference
annotations (designed for Bradley-Terry training) to complement existing
ratings (designed for Regression style training) in the HelpSteer2 dataset. To
improve data interpretability, preference annotations are accompanied with
human-written justifications. Using this data, we conduct the first
head-to-head comparison of Bradley-Terry and Regression models when adequately
matched for data. Based on insights derived from such a comparison, we propose
a novel approach to combine Bradley-Terry and Regression reward modeling. A
Llama-3.1-70B-Instruct model tuned with this approach scores 94.1 on
RewardBench, emerging top of more than 140 reward models as of 1 Oct 2024. We
also demonstrate the effectiveness of this reward model at aligning models to
follow instructions in RLHF. We open-source this dataset (CC-BY-4.0 license) at
https://huggingface.co/datasets/nvidia/HelpSteer2 and openly release the
trained Reward Model at
https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-RewardSummary
AI-Generated Summary