Skywork-Reward: Набор трюков для моделирования вознаграждения в LLM-моделях

Аннотация

В данном отчете мы представляем набор методов для улучшения моделирования вознаграждения для LLMs, с акцентом на техники, основанные на данных. Мы предлагаем эффективные стратегии выбора и фильтрации данных для создания качественных открытых наборов данных предпочтений, что привело к созданию набора данных Skywork-Reward, содержащего всего 80 тыс. пар предпочтений - значительно меньше существующих наборов данных. Используя этот отобранный набор данных, мы разработали серию моделей Skywork-Reward - Skywork-Reward-Gemma-27B и Skywork-Reward-Llama-3.1-8B, причем первая в настоящее время занимает лидирующую позицию в рейтинге RewardBench. Значительно, что наши методы и наборы данных непосредственно повысили производительность многих лучших моделей в рейтинге RewardBench, подчеркивая практическое значение наших результатов в прикладных задачах обучения предпочтениям в реальном мире.

English

In this report, we introduce a collection of methods to enhance reward modeling for LLMs, focusing specifically on data-centric techniques. We propose effective data selection and filtering strategies for curating high-quality open-source preference datasets, culminating in the Skywork-Reward data collection, which contains only 80K preference pairs -- significantly smaller than existing datasets. Using this curated dataset, we developed the Skywork-Reward model series -- Skywork-Reward-Gemma-27B and Skywork-Reward-Llama-3.1-8B -- with the former currently holding the top position on the RewardBench leaderboard. Notably, our techniques and datasets have directly enhanced the performance of many top-ranked models on RewardBench, highlighting the practical impact of our contributions in real-world preference learning applications.

Skywork-Reward: Набор трюков для моделирования вознаграждения в LLM-моделях

Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs

Аннотация

Support