ChatPaper.aiChatPaper

HelpSteer3-Preference: Открытые данные о предпочтениях, аннотированные людьми, для разнообразных задач и языков

HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages

May 16, 2025
Авторы: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Hoo-Chang Shin, Felipe Soares, Alexander Bukharin, Ellie Evans, Yi Dong, Oleksii Kuchaiev
cs.AI

Аннотация

Наборы данных с предпочтениями имеют ключевое значение для обучения языковых моделей общего назначения, способных следовать инструкциям, с использованием обучения с подкреплением на основе обратной связи от человека (RLHF). Каждый последующий выпуск данных повышает ожидания в отношении будущих сборов данных, что означает постоянную необходимость в улучшении качества и разнообразия открыто доступных данных о предпочтениях. Для удовлетворения этой потребности мы представляем HelpSteer3-Preference — высококачественный набор данных с предпочтениями, аннотированный людьми и распространяемый под лицензией CC-BY-4.0, который включает более 40 000 образцов. Эти образцы охватывают разнообразные реальные применения крупных языковых моделей (LLM), включая задачи, связанные с STEM, программированием и многоязычными сценариями. Используя HelpSteer3-Preference, мы обучаем модели вознаграждения (RMs), которые достигают наивысшей производительности на RM-Bench (82,4%) и JudgeBench (73,7%). Это представляет собой значительное улучшение (~10% в абсолютных значениях) по сравнению с ранее зафиксированными лучшими результатами существующих моделей вознаграждения. Мы демонстрируем, что HelpSteer3-Preference также может быть использован для обучения генеративных моделей вознаграждения, и как модели политик могут быть согласованы с RLHF с использованием наших моделей вознаграждения. Набор данных (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference.
English
Preference datasets are essential for training general-domain, instruction-following language models with Reinforcement Learning from Human Feedback (RLHF). Each subsequent data release raises expectations for future data collection, meaning there is a constant need to advance the quality and diversity of openly available preference data. To address this need, we introduce HelpSteer3-Preference, a permissively licensed (CC-BY-4.0), high-quality, human-annotated preference dataset comprising of over 40,000 samples. These samples span diverse real-world applications of large language models (LLMs), including tasks relating to STEM, coding and multilingual scenarios. Using HelpSteer3-Preference, we train Reward Models (RMs) that achieve top performance on RM-Bench (82.4%) and JudgeBench (73.7%). This represents a substantial improvement (~10% absolute) over the previously best-reported results from existing RMs. We demonstrate HelpSteer3-Preference can also be applied to train Generative RMs and how policy models can be aligned with RLHF using our RMs. Dataset (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference

Summary

AI-Generated Summary

PDF22May 20, 2025