HelpSteer2: Conjunto de datos de código abierto para entrenar modelos de recompensa de alto rendimiento
HelpSteer2: Open-source dataset for training top-performing reward models
June 12, 2024
Autores: Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi Zeng, Gerald Shen, Daniel Egert, Jimmy J. Zhang, Makesh Narsimhan Sreedhar, Oleksii Kuchaiev
cs.AI
Resumen
Los conjuntos de datos de preferencias de alta calidad son esenciales para entrenar modelos de recompensa que puedan guiar eficazmente a los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en la generación de respuestas de alta calidad alineadas con las preferencias humanas. A medida que los LLMs se vuelven más potentes y mejor alineados, los conjuntos de datos de preferencias con licencias permisivas, como Open Assistant, HH-RLHF y HelpSteer, necesitan actualizarse para seguir siendo efectivos en el modelado de recompensas. Los métodos que extraen datos de preferencias de LLMs propietarios como GPT-4 tienen restricciones en su uso comercial impuestas por los proveedores de los modelos. Para mejorar tanto la calidad de las respuestas generadas como el etiquetado de atributos, lanzamos HelpSteer2, un conjunto de datos de preferencias con licencia permisiva (CC-BY-4.0). Utilizando un potente modelo base interno entrenado con HelpSteer2, logramos la puntuación más alta (92.0%) en el conjunto de datos principal de Reward-Bench, superando a los modelos abiertos y propietarios actualmente listados, al 12 de junio de 2024. Cabe destacar que HelpSteer2 consta de solo diez mil pares de respuestas, un orden de magnitud menor que los conjuntos de datos de preferencias existentes (por ejemplo, HH-RLHF), lo que lo hace altamente eficiente para entrenar modelos de recompensa. Nuestros extensos experimentos demuestran que los modelos de recompensa entrenados con HelpSteer2 son efectivos para alinear LLMs. En particular, proponemos SteerLM 2.0, un enfoque de alineación de modelos que puede hacer un uso efectivo de la puntuación multi-atributo rica predicha por nuestros modelos de recompensa. HelpSteer2 está disponible en https://huggingface.co/datasets/nvidia/HelpSteer2 y el código está disponible en https://github.com/NVIDIA/NeMo-Aligner.
English
High-quality preference datasets are essential for training reward models
that can effectively guide large language models (LLMs) in generating
high-quality responses aligned with human preferences. As LLMs become stronger
and better aligned, permissively licensed preference datasets, such as Open
Assistant, HH-RLHF, and HelpSteer need to be updated to remain effective for
reward modeling. Methods that distil preference data from proprietary LLMs such
as GPT-4 have restrictions on commercial usage imposed by model providers. To
improve upon both generated responses and attribute labeling quality, we
release HelpSteer2, a permissively licensed preference dataset (CC-BY-4.0).
Using a powerful internal base model trained on HelpSteer2, we are able to
achieve the SOTA score (92.0%) on Reward-Bench's primary dataset, outperforming
currently listed open and proprietary models, as of June 12th, 2024. Notably,
HelpSteer2 consists of only ten thousand response pairs, an order of magnitude
fewer than existing preference datasets (e.g., HH-RLHF), which makes it highly
efficient for training reward models. Our extensive experiments demonstrate
that reward models trained with HelpSteer2 are effective in aligning LLMs. In
particular, we propose SteerLM 2.0, a model alignment approach that can
effectively make use of the rich multi-attribute score predicted by our reward
models. HelpSteer2 is available at
https://huggingface.co/datasets/nvidia/HelpSteer2 and code is available at
https://github.com/NVIDIA/NeMo-Aligner