HelpSteer2-Präferenz: Ergänzung von Bewertungen mit Präferenzen

papers.abstract

Belohnungsmodelle sind entscheidend, um Modelle darauf auszurichten, Anweisungen zu befolgen, und werden in der Regel gemäß eines der beiden beliebten Paradigmen trainiert: im Stil von Bradley-Terry oder im Regressionsstil. Es fehlt jedoch an Beweisen dafür, dass der eine Ansatz besser ist als der andere, wenn die Daten angemessen abgeglichen sind. Dies liegt hauptsächlich daran, dass diese Ansätze Daten erfordern, die in verschiedenen (aber inkompatiblen) Formaten gesammelt wurden, was bedeutet, dass angemessen abgeglichene Daten in vorhandenen öffentlichen Datensätzen nicht verfügbar sind. Um dieses Problem anzugehen, veröffentlichen wir Präferenzannotationen (entwickelt für das Bradley-Terry-Training), um vorhandene Bewertungen (entwickelt für das Regressionsstil-Training) im HelpSteer2-Datensatz zu ergänzen. Zur Verbesserung der Dateninterpretierbarkeit werden den Präferenzannotationen von Menschen verfasste Begründungen beigefügt. Unter Verwendung dieser Daten führen wir den ersten direkten Vergleich von Bradley-Terry- und Regressionsmodellen durch, wenn die Daten angemessen abgeglichen sind. Basierend auf Erkenntnissen aus einem solchen Vergleich schlagen wir einen neuartigen Ansatz vor, um Bradley-Terry- und Regressions-Belohnungsmodelle zu kombinieren. Ein mit diesem Ansatz abgestimmtes Llama-3.1-70B-Instruct-Modell erzielt auf RewardBench 94,1 Punkte und liegt damit am 1. Oktober 2024 an der Spitze von über 140 Belohnungsmodellen. Wir zeigen auch die Wirksamkeit dieses Belohnungsmodells bei der Ausrichtung von Modellen darauf, Anweisungen in RLHF zu befolgen. Wir stellen diesen Datensatz unter einer CC-BY-4.0-Lizenz auf https://huggingface.co/datasets/nvidia/HelpSteer2 als Open Source zur Verfügung und veröffentlichen das trainierte Belohnungsmodell unter https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward öffentlich.

English

Reward models are critical for aligning models to follow instructions, and are typically trained following one of two popular paradigms: Bradley-Terry style or Regression style. However, there is a lack of evidence that either approach is better than the other, when adequately matched for data. This is primarily because these approaches require data collected in different (but incompatible) formats, meaning that adequately matched data is not available in existing public datasets. To tackle this problem, we release preference annotations (designed for Bradley-Terry training) to complement existing ratings (designed for Regression style training) in the HelpSteer2 dataset. To improve data interpretability, preference annotations are accompanied with human-written justifications. Using this data, we conduct the first head-to-head comparison of Bradley-Terry and Regression models when adequately matched for data. Based on insights derived from such a comparison, we propose a novel approach to combine Bradley-Terry and Regression reward modeling. A Llama-3.1-70B-Instruct model tuned with this approach scores 94.1 on RewardBench, emerging top of more than 140 reward models as of 1 Oct 2024. We also demonstrate the effectiveness of this reward model at aligning models to follow instructions in RLHF. We open-source this dataset (CC-BY-4.0 license) at https://huggingface.co/datasets/nvidia/HelpSteer2 and openly release the trained Reward Model at https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward

HelpSteer2-Präferenz: Ergänzung von Bewertungen mit Präferenzen

HelpSteer2-Preference: Complementing Ratings with Preferences

papers.abstract

Support