HelpSteer3-Preference: Datos de Preferencia Anotados por Humanos en Tareas y Lenguajes Diversos
HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages
May 16, 2025
Autores: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Hoo-Chang Shin, Felipe Soares, Alexander Bukharin, Ellie Evans, Yi Dong, Oleksii Kuchaiev
cs.AI
Resumen
Los conjuntos de datos de preferencias son esenciales para entrenar modelos de lenguaje de dominio general que siguen instrucciones mediante el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF). Cada nueva publicación de datos eleva las expectativas para futuras recopilaciones, lo que significa que existe una necesidad constante de mejorar la calidad y diversidad de los datos de preferencias disponibles públicamente. Para abordar esta necesidad, presentamos HelpSteer3-Preference, un conjunto de datos de preferencias de alta calidad, anotado por humanos y con licencia permisiva (CC-BY-4.0), que comprende más de 40,000 muestras. Estas muestras abarcan diversas aplicaciones del mundo real de los modelos de lenguaje grandes (LLMs), incluyendo tareas relacionadas con STEM, programación y escenarios multilingües. Utilizando HelpSteer3-Preference, entrenamos Modelos de Recompensa (RMs) que alcanzan un rendimiento superior en RM-Bench (82.4%) y JudgeBench (73.7%). Esto representa una mejora sustancial (~10% absoluto) sobre los mejores resultados previamente reportados por los RMs existentes. Demostramos que HelpSteer3-Preference también puede aplicarse para entrenar Modelos de Recompensa Generativos y cómo los modelos de políticas pueden alinearse con RLHF utilizando nuestros RMs. Conjunto de datos (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference.
English
Preference datasets are essential for training general-domain,
instruction-following language models with Reinforcement Learning from Human
Feedback (RLHF). Each subsequent data release raises expectations for future
data collection, meaning there is a constant need to advance the quality and
diversity of openly available preference data. To address this need, we
introduce HelpSteer3-Preference, a permissively licensed (CC-BY-4.0),
high-quality, human-annotated preference dataset comprising of over 40,000
samples. These samples span diverse real-world applications of large language
models (LLMs), including tasks relating to STEM, coding and multilingual
scenarios. Using HelpSteer3-Preference, we train Reward Models (RMs) that
achieve top performance on RM-Bench (82.4%) and JudgeBench (73.7%). This
represents a substantial improvement (~10% absolute) over the previously
best-reported results from existing RMs. We demonstrate HelpSteer3-Preference
can also be applied to train Generative RMs and how policy models can be
aligned with RLHF using our RMs. Dataset (CC-BY-4.0):
https://huggingface.co/datasets/nvidia/HelpSteer3#preferenceSummary
AI-Generated Summary