HelpSteer3-Preference: Открытые данные о предпочтениях, аннотированные людьми, для разнообразных задач и языков
HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages
May 16, 2025
Авторы: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Hoo-Chang Shin, Felipe Soares, Alexander Bukharin, Ellie Evans, Yi Dong, Oleksii Kuchaiev
cs.AI
Аннотация
Наборы данных с предпочтениями имеют ключевое значение для обучения языковых моделей общего назначения, способных следовать инструкциям, с использованием обучения с подкреплением на основе обратной связи от человека (RLHF). Каждый последующий выпуск данных повышает ожидания в отношении будущих сборов данных, что означает постоянную необходимость в улучшении качества и разнообразия открыто доступных данных о предпочтениях. Для удовлетворения этой потребности мы представляем HelpSteer3-Preference — высококачественный набор данных с предпочтениями, аннотированный людьми и распространяемый под лицензией CC-BY-4.0, который включает более 40 000 образцов. Эти образцы охватывают разнообразные реальные применения крупных языковых моделей (LLM), включая задачи, связанные с STEM, программированием и многоязычными сценариями. Используя HelpSteer3-Preference, мы обучаем модели вознаграждения (RMs), которые достигают наивысшей производительности на RM-Bench (82,4%) и JudgeBench (73,7%). Это представляет собой значительное улучшение (~10% в абсолютных значениях) по сравнению с ранее зафиксированными лучшими результатами существующих моделей вознаграждения. Мы демонстрируем, что HelpSteer3-Preference также может быть использован для обучения генеративных моделей вознаграждения, и как модели политик могут быть согласованы с RLHF с использованием наших моделей вознаграждения. Набор данных (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference.
English
Preference datasets are essential for training general-domain,
instruction-following language models with Reinforcement Learning from Human
Feedback (RLHF). Each subsequent data release raises expectations for future
data collection, meaning there is a constant need to advance the quality and
diversity of openly available preference data. To address this need, we
introduce HelpSteer3-Preference, a permissively licensed (CC-BY-4.0),
high-quality, human-annotated preference dataset comprising of over 40,000
samples. These samples span diverse real-world applications of large language
models (LLMs), including tasks relating to STEM, coding and multilingual
scenarios. Using HelpSteer3-Preference, we train Reward Models (RMs) that
achieve top performance on RM-Bench (82.4%) and JudgeBench (73.7%). This
represents a substantial improvement (~10% absolute) over the previously
best-reported results from existing RMs. We demonstrate HelpSteer3-Preference
can also be applied to train Generative RMs and how policy models can be
aligned with RLHF using our RMs. Dataset (CC-BY-4.0):
https://huggingface.co/datasets/nvidia/HelpSteer3#preferenceSummary
AI-Generated Summary