ChatPaper.aiChatPaper

HelpSteer2-Preference: Complementando Calificaciones con Preferencias

HelpSteer2-Preference: Complementing Ratings with Preferences

October 2, 2024
Autores: Zhilin Wang, Alexander Bukharin, Olivier Delalleau, Daniel Egert, Gerald Shen, Jiaqi Zeng, Oleksii Kuchaiev, Yi Dong
cs.AI

Resumen

Los modelos de recompensa son fundamentales para alinear los modelos y que sigan instrucciones, y generalmente se entrenan siguiendo uno de dos paradigmas populares: estilo Bradley-Terry o estilo de Regresión. Sin embargo, no hay evidencia que demuestre que alguno de los enfoques sea mejor que el otro, cuando se emparejan adecuadamente los datos. Esto se debe principalmente a que estos enfoques requieren datos recopilados en formatos diferentes (pero incompatibles), lo que significa que no hay datos adecuadamente emparejados disponibles en los conjuntos de datos públicos existentes. Para abordar este problema, lanzamos anotaciones de preferencia (diseñadas para el entrenamiento de Bradley-Terry) para complementar las calificaciones existentes (diseñadas para el entrenamiento de estilo de Regresión) en el conjunto de datos HelpSteer2. Para mejorar la interpretabilidad de los datos, las anotaciones de preferencia van acompañadas de justificaciones escritas por humanos. Utilizando estos datos, realizamos la primera comparación directa de los modelos de Bradley-Terry y Regresión cuando se emparejan adecuadamente los datos. Basándonos en las ideas derivadas de dicha comparación, proponemos un enfoque novedoso para combinar la modelización de recompensa de Bradley-Terry y Regresión. Un modelo Llama-3.1-70B-Instruct ajustado con este enfoque obtiene una puntuación de 94.1 en RewardBench, emergiendo en la parte superior de más de 140 modelos de recompensa hasta el 1 de octubre de 2024. También demostramos la efectividad de este modelo de recompensa para alinear los modelos y que sigan instrucciones en RLHF. Ponemos a disposición este conjunto de datos de código abierto (licencia CC-BY-4.0) en https://huggingface.co/datasets/nvidia/HelpSteer2 y publicamos abiertamente el Modelo de Recompensa entrenado en https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward.
English
Reward models are critical for aligning models to follow instructions, and are typically trained following one of two popular paradigms: Bradley-Terry style or Regression style. However, there is a lack of evidence that either approach is better than the other, when adequately matched for data. This is primarily because these approaches require data collected in different (but incompatible) formats, meaning that adequately matched data is not available in existing public datasets. To tackle this problem, we release preference annotations (designed for Bradley-Terry training) to complement existing ratings (designed for Regression style training) in the HelpSteer2 dataset. To improve data interpretability, preference annotations are accompanied with human-written justifications. Using this data, we conduct the first head-to-head comparison of Bradley-Terry and Regression models when adequately matched for data. Based on insights derived from such a comparison, we propose a novel approach to combine Bradley-Terry and Regression reward modeling. A Llama-3.1-70B-Instruct model tuned with this approach scores 94.1 on RewardBench, emerging top of more than 140 reward models as of 1 Oct 2024. We also demonstrate the effectiveness of this reward model at aligning models to follow instructions in RLHF. We open-source this dataset (CC-BY-4.0 license) at https://huggingface.co/datasets/nvidia/HelpSteer2 and openly release the trained Reward Model at https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward

Summary

AI-Generated Summary

PDF245November 16, 2024