Skywork-Reward-V2: Scalabilità della Cura dei Dati di Preferenza attraverso la Sinergia Uomo-IA

Abstract

Nonostante il ruolo cruciale dei modelli di ricompensa (RMs) nell'apprendimento per rinforzo basato sul feedback umano (RLHF), gli attuali modelli open RMs all'avanguardia si comportano male nella maggior parte dei benchmark di valutazione esistenti, fallendo nel catturare lo spettro delle preferenze umane sfumate e sofisticate. Anche gli approcci che incorporano tecniche di addestramento avanzate non hanno portato a miglioramenti significativi delle prestazioni. Ipotesizziamo che questa fragilità derivi principalmente dalle limitazioni nei dataset di preferenze, che sono spesso ristretti nel campo di applicazione, etichettati sinteticamente o privi di un rigoroso controllo di qualità. Per affrontare queste sfide, presentiamo un dataset di preferenze su larga scala composto da 40 milioni di coppie di preferenze, denominato SynPref-40M. Per consentire la cura dei dati su larga scala, progettiamo una pipeline sinergica uomo-AI in due fasi che sfrutta i punti di forza complementari della qualità delle annotazioni umane e della scalabilità dell'AI. In questa pipeline, gli esseri umani forniscono annotazioni verificate, mentre i modelli linguistici di grandi dimensioni eseguono la cura automatica basata sulla guida umana. Addestrando su questa miscela di preferenze, introduciamo Skywork-Reward-V2, una suite di otto modelli di ricompensa che vanno da 0,6B a 8B di parametri, addestrati su un sottoinsieme accuratamente curato di 26 milioni di coppie di preferenze da SynPref-40M. Dimostriamo che Skywork-Reward-V2 è versatile in un'ampia gamma di capacità, tra cui l'allineamento con le preferenze umane, la correttezza oggettiva, la sicurezza, la resistenza ai bias stilistici e la scalabilità best-of-N, raggiungendo prestazioni all'avanguardia in sette principali benchmark di modelli di ricompensa. Studi di ablazione confermano che l'efficacia del nostro approccio deriva non solo dalla scala dei dati, ma anche dalla cura di alta qualità. La serie Skywork-Reward-V2 rappresenta un progresso sostanziale nei modelli di ricompensa open, evidenziando il potenziale inesplorato dei dataset di preferenze esistenti e dimostrando come la sinergia di cura uomo-AI possa sbloccare una qualità dei dati significativamente superiore.

English

Despite the critical role of reward models (RMs) in reinforcement learning from human feedback (RLHF), current state-of-the-art open RMs perform poorly on most existing evaluation benchmarks, failing to capture the spectrum of nuanced and sophisticated human preferences. Even approaches that incorporate advanced training techniques have not yielded meaningful performance improvements. We hypothesize that this brittleness stems primarily from limitations in preference datasets, which are often narrowly scoped, synthetically labeled, or lack rigorous quality control. To address these challenges, we present a large-scale preference dataset comprising 40 million preference pairs, named SynPref-40M. To enable data curation at scale, we design a human-AI synergistic two-stage pipeline that leverages the complementary strengths of human annotation quality and AI scalability. In this pipeline, humans provide verified annotations, while large language models perform automatic curation based on human guidance. Training on this preference mixture, we introduce Skywork-Reward-V2, a suite of eight reward models ranging from 0.6B to 8B parameters, trained on a carefully curated subset of 26 million preference pairs from SynPref-40M. We demonstrate that Skywork-Reward-V2 is versatile across a wide range of capabilities, including alignment with human preferences, objective correctness, safety, resistance to stylistic biases, and best-of-N scaling, achieving state-of-the-art performance across seven major reward model benchmarks. Ablation studies confirm that the effectiveness of our approach stems not only from data scale but also from high-quality curation. The Skywork-Reward-V2 series represents substantial progress in open reward models, highlighting the untapped potential of existing preference datasets and demonstrating how human-AI curation synergy can unlock significantly higher data quality.

Skywork-Reward-V2: Scalabilità della Cura dei Dati di Preferenza attraverso la Sinergia Uomo-IA

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

Abstract

Support