ChatPaper.aiChatPaper

Skywork-Reward: Saco de Truques para Modelagem de Recompensas em LLMs

Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs

October 24, 2024
Autores: Chris Yuhao Liu, Liang Zeng, Jiacai Liu, Rui Yan, Jujie He, Chaojie Wang, Shuicheng Yan, Yang Liu, Yahui Zhou
cs.AI

Resumo

Neste relatório, apresentamos uma coleção de métodos para aprimorar a modelagem de recompensas para LLMs, focando especificamente em técnicas centradas em dados. Propomos estratégias eficazes de seleção e filtragem de dados para a curadoria de conjuntos de dados de preferência de código aberto de alta qualidade, culminando na coleção de dados Skywork-Reward, que contém apenas 80 mil pares de preferência - significativamente menor do que os conjuntos de dados existentes. Utilizando este conjunto de dados curado, desenvolvemos a série de modelos Skywork-Reward - Skywork-Reward-Gemma-27B e Skywork-Reward-Llama-3.1-8B - sendo o primeiro atualmente o líder do quadro de líderes do RewardBench. Notavelmente, nossas técnicas e conjuntos de dados aprimoraram diretamente o desempenho de muitos modelos bem classificados no RewardBench, destacando o impacto prático de nossas contribuições em aplicações de aprendizado de preferências do mundo real.
English
In this report, we introduce a collection of methods to enhance reward modeling for LLMs, focusing specifically on data-centric techniques. We propose effective data selection and filtering strategies for curating high-quality open-source preference datasets, culminating in the Skywork-Reward data collection, which contains only 80K preference pairs -- significantly smaller than existing datasets. Using this curated dataset, we developed the Skywork-Reward model series -- Skywork-Reward-Gemma-27B and Skywork-Reward-Llama-3.1-8B -- with the former currently holding the top position on the RewardBench leaderboard. Notably, our techniques and datasets have directly enhanced the performance of many top-ranked models on RewardBench, highlighting the practical impact of our contributions in real-world preference learning applications.
PDF202November 16, 2024