ChatPaper.aiChatPaper

HelpSteer2: Conjunto de datos de código abierto para entrenar modelos de recompensa de alto rendimiento

HelpSteer2: Open-source dataset for training top-performing reward models

June 12, 2024
Autores: Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi Zeng, Gerald Shen, Daniel Egert, Jimmy J. Zhang, Makesh Narsimhan Sreedhar, Oleksii Kuchaiev
cs.AI

Resumen

Los conjuntos de datos de preferencias de alta calidad son esenciales para entrenar modelos de recompensa que puedan guiar eficazmente a los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en la generación de respuestas de alta calidad alineadas con las preferencias humanas. A medida que los LLMs se vuelven más potentes y mejor alineados, los conjuntos de datos de preferencias con licencias permisivas, como Open Assistant, HH-RLHF y HelpSteer, necesitan actualizarse para seguir siendo efectivos en el modelado de recompensas. Los métodos que extraen datos de preferencias de LLMs propietarios como GPT-4 tienen restricciones en su uso comercial impuestas por los proveedores de los modelos. Para mejorar tanto la calidad de las respuestas generadas como el etiquetado de atributos, lanzamos HelpSteer2, un conjunto de datos de preferencias con licencia permisiva (CC-BY-4.0). Utilizando un potente modelo base interno entrenado con HelpSteer2, logramos la puntuación más alta (92.0%) en el conjunto de datos principal de Reward-Bench, superando a los modelos abiertos y propietarios actualmente listados, al 12 de junio de 2024. Cabe destacar que HelpSteer2 consta de solo diez mil pares de respuestas, un orden de magnitud menor que los conjuntos de datos de preferencias existentes (por ejemplo, HH-RLHF), lo que lo hace altamente eficiente para entrenar modelos de recompensa. Nuestros extensos experimentos demuestran que los modelos de recompensa entrenados con HelpSteer2 son efectivos para alinear LLMs. En particular, proponemos SteerLM 2.0, un enfoque de alineación de modelos que puede hacer un uso efectivo de la puntuación multi-atributo rica predicha por nuestros modelos de recompensa. HelpSteer2 está disponible en https://huggingface.co/datasets/nvidia/HelpSteer2 y el código está disponible en https://github.com/NVIDIA/NeMo-Aligner.
English
High-quality preference datasets are essential for training reward models that can effectively guide large language models (LLMs) in generating high-quality responses aligned with human preferences. As LLMs become stronger and better aligned, permissively licensed preference datasets, such as Open Assistant, HH-RLHF, and HelpSteer need to be updated to remain effective for reward modeling. Methods that distil preference data from proprietary LLMs such as GPT-4 have restrictions on commercial usage imposed by model providers. To improve upon both generated responses and attribute labeling quality, we release HelpSteer2, a permissively licensed preference dataset (CC-BY-4.0). Using a powerful internal base model trained on HelpSteer2, we are able to achieve the SOTA score (92.0%) on Reward-Bench's primary dataset, outperforming currently listed open and proprietary models, as of June 12th, 2024. Notably, HelpSteer2 consists of only ten thousand response pairs, an order of magnitude fewer than existing preference datasets (e.g., HH-RLHF), which makes it highly efficient for training reward models. Our extensive experiments demonstrate that reward models trained with HelpSteer2 are effective in aligning LLMs. In particular, we propose SteerLM 2.0, a model alignment approach that can effectively make use of the rich multi-attribute score predicted by our reward models. HelpSteer2 is available at https://huggingface.co/datasets/nvidia/HelpSteer2 and code is available at https://github.com/NVIDIA/NeMo-Aligner
PDF193December 6, 2024