Skywork-Reward: Saco de Trucos para Modelado de Recompensas en LLMs
Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs
October 24, 2024
Autores: Chris Yuhao Liu, Liang Zeng, Jiacai Liu, Rui Yan, Jujie He, Chaojie Wang, Shuicheng Yan, Yang Liu, Yahui Zhou
cs.AI
Resumen
En este informe, presentamos una colección de métodos para mejorar la modelización de recompensas para LLMs, centrándonos específicamente en técnicas centradas en los datos. Proponemos estrategias efectivas de selección y filtrado de datos para la curación de conjuntos de datos de preferencias de código abierto de alta calidad, culminando en la colección de datos Skywork-Reward, que contiene solo 80K pares de preferencias, significativamente más pequeña que los conjuntos de datos existentes. Utilizando este conjunto de datos curado, desarrollamos la serie de modelos Skywork-Reward: Skywork-Reward-Gemma-27B y Skywork-Reward-Llama-3.1-8B, siendo el primero el actual líder en la tabla de clasificación de RewardBench. Notablemente, nuestras técnicas y conjuntos de datos han mejorado directamente el rendimiento de muchos modelos mejor clasificados en RewardBench, resaltando el impacto práctico de nuestras contribuciones en aplicaciones de aprendizaje de preferencias del mundo real.
English
In this report, we introduce a collection of methods to enhance reward
modeling for LLMs, focusing specifically on data-centric techniques. We propose
effective data selection and filtering strategies for curating high-quality
open-source preference datasets, culminating in the Skywork-Reward data
collection, which contains only 80K preference pairs -- significantly smaller
than existing datasets. Using this curated dataset, we developed the
Skywork-Reward model series -- Skywork-Reward-Gemma-27B and
Skywork-Reward-Llama-3.1-8B -- with the former currently holding the top
position on the RewardBench leaderboard. Notably, our techniques and datasets
have directly enhanced the performance of many top-ranked models on
RewardBench, highlighting the practical impact of our contributions in
real-world preference learning applications.Summary
AI-Generated Summary