ChatPaper.aiChatPaper

HelpSteer3-Preference: Dados de Preferência Anotados por Humanos em Tarefas e Idiomas Diversos

HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages

May 16, 2025
Autores: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Hoo-Chang Shin, Felipe Soares, Alexander Bukharin, Ellie Evans, Yi Dong, Oleksii Kuchaiev
cs.AI

Resumo

Conjuntos de dados de preferência são essenciais para treinar modelos de linguagem de domínio geral que seguem instruções, utilizando Aprendizado por Reforço com Feedback Humano (RLHF). Cada lançamento subsequente de dados eleva as expectativas para futuras coletas de dados, o que significa que há uma necessidade constante de avançar na qualidade e diversidade dos dados de preferência disponíveis abertamente. Para atender a essa necessidade, apresentamos o HelpSteer3-Preference, um conjunto de dados de preferência de alta qualidade, anotado por humanos e licenciado de forma permissiva (CC-BY-4.0), composto por mais de 40.000 amostras. Essas amostras abrangem diversas aplicações do mundo real de modelos de linguagem de grande escala (LLMs), incluindo tarefas relacionadas a STEM, programação e cenários multilíngues. Utilizando o HelpSteer3-Preference, treinamos Modelos de Recompensa (RMs) que alcançam desempenho de topo no RM-Bench (82,4%) e no JudgeBench (73,7%). Isso representa uma melhoria substancial (~10% absoluta) em relação aos melhores resultados relatados anteriormente por RMs existentes. Demonstramos que o HelpSteer3-Preference também pode ser aplicado para treinar Modelos de Recompensa Generativos e como modelos de política podem ser alinhados com RLHF usando nossos RMs. Conjunto de dados (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference
English
Preference datasets are essential for training general-domain, instruction-following language models with Reinforcement Learning from Human Feedback (RLHF). Each subsequent data release raises expectations for future data collection, meaning there is a constant need to advance the quality and diversity of openly available preference data. To address this need, we introduce HelpSteer3-Preference, a permissively licensed (CC-BY-4.0), high-quality, human-annotated preference dataset comprising of over 40,000 samples. These samples span diverse real-world applications of large language models (LLMs), including tasks relating to STEM, coding and multilingual scenarios. Using HelpSteer3-Preference, we train Reward Models (RMs) that achieve top performance on RM-Bench (82.4%) and JudgeBench (73.7%). This represents a substantial improvement (~10% absolute) over the previously best-reported results from existing RMs. We demonstrate HelpSteer3-Preference can also be applied to train Generative RMs and how policy models can be aligned with RLHF using our RMs. Dataset (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference
PDF32May 20, 2025