HelpSteer3-Preference: Datos de Preferencia Anotados por Humanos en Tareas y Lenguajes Diversos

Resumen

Los conjuntos de datos de preferencias son esenciales para entrenar modelos de lenguaje de dominio general que siguen instrucciones mediante el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF). Cada nueva publicación de datos eleva las expectativas para futuras recopilaciones, lo que significa que existe una necesidad constante de mejorar la calidad y diversidad de los datos de preferencias disponibles públicamente. Para abordar esta necesidad, presentamos HelpSteer3-Preference, un conjunto de datos de preferencias de alta calidad, anotado por humanos y con licencia permisiva (CC-BY-4.0), que comprende más de 40,000 muestras. Estas muestras abarcan diversas aplicaciones del mundo real de los modelos de lenguaje grandes (LLMs), incluyendo tareas relacionadas con STEM, programación y escenarios multilingües. Utilizando HelpSteer3-Preference, entrenamos Modelos de Recompensa (RMs) que alcanzan un rendimiento superior en RM-Bench (82.4%) y JudgeBench (73.7%). Esto representa una mejora sustancial (~10% absoluto) sobre los mejores resultados previamente reportados por los RMs existentes. Demostramos que HelpSteer3-Preference también puede aplicarse para entrenar Modelos de Recompensa Generativos y cómo los modelos de políticas pueden alinearse con RLHF utilizando nuestros RMs. Conjunto de datos (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference.

English

Preference datasets are essential for training general-domain, instruction-following language models with Reinforcement Learning from Human Feedback (RLHF). Each subsequent data release raises expectations for future data collection, meaning there is a constant need to advance the quality and diversity of openly available preference data. To address this need, we introduce HelpSteer3-Preference, a permissively licensed (CC-BY-4.0), high-quality, human-annotated preference dataset comprising of over 40,000 samples. These samples span diverse real-world applications of large language models (LLMs), including tasks relating to STEM, coding and multilingual scenarios. Using HelpSteer3-Preference, we train Reward Models (RMs) that achieve top performance on RM-Bench (82.4%) and JudgeBench (73.7%). This represents a substantial improvement (~10% absolute) over the previously best-reported results from existing RMs. We demonstrate HelpSteer3-Preference can also be applied to train Generative RMs and how policy models can be aligned with RLHF using our RMs. Dataset (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference

HelpSteer3-Preference: Datos de Preferencia Anotados por Humanos en Tareas y Lenguajes Diversos

HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages

Resumen

Support