Skywork-Reward-V2: Scalabilità della Cura dei Dati di Preferenza attraverso la Sinergia Uomo-IA
Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy
July 2, 2025
Autori: Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao, Jujie He, Jiacai Liu, Chaojie Wang, Rui Yan, Wei Shen, Fuxiang Zhang, Jiacheng Xu, Yang Liu, Yahui Zhou
cs.AI
Abstract
Nonostante il ruolo cruciale dei modelli di ricompensa (RMs) nell'apprendimento per rinforzo basato sul feedback umano (RLHF), gli attuali modelli open RMs all'avanguardia si comportano male nella maggior parte dei benchmark di valutazione esistenti, fallendo nel catturare lo spettro delle preferenze umane sfumate e sofisticate. Anche gli approcci che incorporano tecniche di addestramento avanzate non hanno portato a miglioramenti significativi delle prestazioni. Ipotesizziamo che questa fragilità derivi principalmente dalle limitazioni nei dataset di preferenze, che sono spesso ristretti nel campo di applicazione, etichettati sinteticamente o privi di un rigoroso controllo di qualità. Per affrontare queste sfide, presentiamo un dataset di preferenze su larga scala composto da 40 milioni di coppie di preferenze, denominato SynPref-40M. Per consentire la cura dei dati su larga scala, progettiamo una pipeline sinergica uomo-AI in due fasi che sfrutta i punti di forza complementari della qualità delle annotazioni umane e della scalabilità dell'AI. In questa pipeline, gli esseri umani forniscono annotazioni verificate, mentre i modelli linguistici di grandi dimensioni eseguono la cura automatica basata sulla guida umana. Addestrando su questa miscela di preferenze, introduciamo Skywork-Reward-V2, una suite di otto modelli di ricompensa che vanno da 0,6B a 8B di parametri, addestrati su un sottoinsieme accuratamente curato di 26 milioni di coppie di preferenze da SynPref-40M. Dimostriamo che Skywork-Reward-V2 è versatile in un'ampia gamma di capacità, tra cui l'allineamento con le preferenze umane, la correttezza oggettiva, la sicurezza, la resistenza ai bias stilistici e la scalabilità best-of-N, raggiungendo prestazioni all'avanguardia in sette principali benchmark di modelli di ricompensa. Studi di ablazione confermano che l'efficacia del nostro approccio deriva non solo dalla scala dei dati, ma anche dalla cura di alta qualità. La serie Skywork-Reward-V2 rappresenta un progresso sostanziale nei modelli di ricompensa open, evidenziando il potenziale inesplorato dei dataset di preferenze esistenti e dimostrando come la sinergia di cura uomo-AI possa sbloccare una qualità dei dati significativamente superiore.
English
Despite the critical role of reward models (RMs) in reinforcement learning
from human feedback (RLHF), current state-of-the-art open RMs perform poorly on
most existing evaluation benchmarks, failing to capture the spectrum of nuanced
and sophisticated human preferences. Even approaches that incorporate advanced
training techniques have not yielded meaningful performance improvements. We
hypothesize that this brittleness stems primarily from limitations in
preference datasets, which are often narrowly scoped, synthetically labeled, or
lack rigorous quality control. To address these challenges, we present a
large-scale preference dataset comprising 40 million preference pairs, named
SynPref-40M. To enable data curation at scale, we design a human-AI synergistic
two-stage pipeline that leverages the complementary strengths of human
annotation quality and AI scalability. In this pipeline, humans provide
verified annotations, while large language models perform automatic curation
based on human guidance. Training on this preference mixture, we introduce
Skywork-Reward-V2, a suite of eight reward models ranging from 0.6B to 8B
parameters, trained on a carefully curated subset of 26 million preference
pairs from SynPref-40M. We demonstrate that Skywork-Reward-V2 is versatile
across a wide range of capabilities, including alignment with human
preferences, objective correctness, safety, resistance to stylistic biases, and
best-of-N scaling, achieving state-of-the-art performance across seven major
reward model benchmarks. Ablation studies confirm that the effectiveness of our
approach stems not only from data scale but also from high-quality curation.
The Skywork-Reward-V2 series represents substantial progress in open reward
models, highlighting the untapped potential of existing preference datasets and
demonstrating how human-AI curation synergy can unlock significantly higher
data quality.