Skywork-Reward: Набор трюков для моделирования вознаграждения в LLM-моделях
Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs
October 24, 2024
Авторы: Chris Yuhao Liu, Liang Zeng, Jiacai Liu, Rui Yan, Jujie He, Chaojie Wang, Shuicheng Yan, Yang Liu, Yahui Zhou
cs.AI
Аннотация
В данном отчете мы представляем набор методов для улучшения моделирования вознаграждения для LLMs, с акцентом на техники, основанные на данных. Мы предлагаем эффективные стратегии выбора и фильтрации данных для создания качественных открытых наборов данных предпочтений, что привело к созданию набора данных Skywork-Reward, содержащего всего 80 тыс. пар предпочтений - значительно меньше существующих наборов данных. Используя этот отобранный набор данных, мы разработали серию моделей Skywork-Reward - Skywork-Reward-Gemma-27B и Skywork-Reward-Llama-3.1-8B, причем первая в настоящее время занимает лидирующую позицию в рейтинге RewardBench. Значительно, что наши методы и наборы данных непосредственно повысили производительность многих лучших моделей в рейтинге RewardBench, подчеркивая практическое значение наших результатов в прикладных задачах обучения предпочтениям в реальном мире.
English
In this report, we introduce a collection of methods to enhance reward
modeling for LLMs, focusing specifically on data-centric techniques. We propose
effective data selection and filtering strategies for curating high-quality
open-source preference datasets, culminating in the Skywork-Reward data
collection, which contains only 80K preference pairs -- significantly smaller
than existing datasets. Using this curated dataset, we developed the
Skywork-Reward model series -- Skywork-Reward-Gemma-27B and
Skywork-Reward-Llama-3.1-8B -- with the former currently holding the top
position on the RewardBench leaderboard. Notably, our techniques and datasets
have directly enhanced the performance of many top-ranked models on
RewardBench, highlighting the practical impact of our contributions in
real-world preference learning applications.Summary
AI-Generated Summary