ChatPaper.aiChatPaper

Skywork-Reward-V2: 인간-AI 시너지를 통한 선호 데이터 큐레이션 확장

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

July 2, 2025
저자: Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao, Jujie He, Jiacai Liu, Chaojie Wang, Rui Yan, Wei Shen, Fuxiang Zhang, Jiacheng Xu, Yang Liu, Yahui Zhou
cs.AI

초록

인간 피드백을 통한 강화 학습(RLHF)에서 보상 모델(RMs)의 중요한 역할에도 불구하고, 현재 최첨단 오픈 보상 모델들은 대부분의 기존 평가 벤치마크에서 부진한 성능을 보이며, 인간의 미묘하고 정교한 선호 스펙트럼을 제대로 포착하지 못하고 있습니다. 심지어 고급 훈련 기법을 도입한 접근법들도 의미 있는 성능 개선을 이루지 못했습니다. 우리는 이러한 취약성이 주로 선호 데이터셋의 한계에서 비롯된다고 가정합니다. 이러한 데이터셋들은 종종 좁은 범위로 한정되거나, 합성적으로 레이블링되었거나, 엄격한 품질 관리가 결여되어 있습니다. 이러한 문제를 해결하기 위해, 우리는 4천만 개의 선호 쌍으로 구성된 대규모 선호 데이터셋인 SynPref-40M을 제안합니다. 대규모 데이터 큐레이션을 가능하게 하기 위해, 우리는 인간의 주석 품질과 AI의 확장성을 상호 보완적으로 활용하는 인간-AI 시너지 두 단계 파이프라인을 설계했습니다. 이 파이프라인에서 인간은 검증된 주석을 제공하고, 대형 언어 모델은 인간의 지침에 기반하여 자동 큐레이션을 수행합니다. 이 선호 혼합 데이터로 훈련하여, 우리는 0.6B에서 8B 파라미터 범위의 8개 보상 모델로 구성된 Skywork-Reward-V2를 소개합니다. 이 모델들은 SynPref-40M에서 신중하게 선별된 2천6백만 개의 선호 쌍으로 훈련되었습니다. 우리는 Skywork-Reward-V2가 인간 선호와의 정렬, 객관적 정확성, 안전성, 스타일 편향에 대한 저항력, 그리고 best-of-N 스케일링을 포함한 다양한 능력에서 다재다능하며, 7개의 주요 보상 모델 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. 제거 연구는 우리 접근법의 효과가 데이터 규모뿐만 아니라 고품질 큐레이션에서 비롯됨을 확인합니다. Skywork-Reward-V2 시리즈는 오픈 보상 모델 분야에서 상당한 진전을 나타내며, 기존 선호 데이터셋의 잠재력을 강조하고 인간-AI 큐레이션 시너지가 훨씬 더 높은 데이터 품질을 이끌어낼 수 있음을 보여줍니다.
English
Despite the critical role of reward models (RMs) in reinforcement learning from human feedback (RLHF), current state-of-the-art open RMs perform poorly on most existing evaluation benchmarks, failing to capture the spectrum of nuanced and sophisticated human preferences. Even approaches that incorporate advanced training techniques have not yielded meaningful performance improvements. We hypothesize that this brittleness stems primarily from limitations in preference datasets, which are often narrowly scoped, synthetically labeled, or lack rigorous quality control. To address these challenges, we present a large-scale preference dataset comprising 40 million preference pairs, named SynPref-40M. To enable data curation at scale, we design a human-AI synergistic two-stage pipeline that leverages the complementary strengths of human annotation quality and AI scalability. In this pipeline, humans provide verified annotations, while large language models perform automatic curation based on human guidance. Training on this preference mixture, we introduce Skywork-Reward-V2, a suite of eight reward models ranging from 0.6B to 8B parameters, trained on a carefully curated subset of 26 million preference pairs from SynPref-40M. We demonstrate that Skywork-Reward-V2 is versatile across a wide range of capabilities, including alignment with human preferences, objective correctness, safety, resistance to stylistic biases, and best-of-N scaling, achieving state-of-the-art performance across seven major reward model benchmarks. Ablation studies confirm that the effectiveness of our approach stems not only from data scale but also from high-quality curation. The Skywork-Reward-V2 series represents substantial progress in open reward models, highlighting the untapped potential of existing preference datasets and demonstrating how human-AI curation synergy can unlock significantly higher data quality.
PDF296July 4, 2025