Skywork-Reward-V2: Escalando la Curación de Datos de Preferencias mediante la Sinergia Humano-IA
Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy
July 2, 2025
Autores: Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao, Jujie He, Jiacai Liu, Chaojie Wang, Rui Yan, Wei Shen, Fuxiang Zhang, Jiacheng Xu, Yang Liu, Yahui Zhou
cs.AI
Resumen
A pesar del papel crucial de los modelos de recompensa (RMs) en el aprendizaje por refuerzo basado en retroalimentación humana (RLHF), los modelos de recompensa abiertos más avanzados actualmente tienen un rendimiento deficiente en la mayoría de los puntos de referencia de evaluación existentes, fallando en capturar el espectro de preferencias humanas matizadas y sofisticadas. Incluso los enfoques que incorporan técnicas avanzadas de entrenamiento no han logrado mejoras significativas en el rendimiento. Hipotetizamos que esta fragilidad se debe principalmente a las limitaciones en los conjuntos de datos de preferencias, que a menudo tienen un alcance reducido, están etiquetados sintéticamente o carecen de un control de calidad riguroso. Para abordar estos desafíos, presentamos un conjunto de datos de preferencias a gran escala que comprende 40 millones de pares de preferencias, denominado SynPref-40M. Para permitir la curación de datos a gran escala, diseñamos una canalización sinérgica humano-IA en dos etapas que aprovecha las fortalezas complementarias de la calidad de la anotación humana y la escalabilidad de la IA. En esta canalización, los humanos proporcionan anotaciones verificadas, mientras que los modelos de lenguaje grandes realizan una curación automática basada en la guía humana. Entrenando en esta mezcla de preferencias, presentamos Skywork-Reward-V2, una suite de ocho modelos de recompensa que van desde 0.6B hasta 8B de parámetros, entrenados en un subconjunto cuidadosamente seleccionado de 26 millones de pares de preferencias de SynPref-40M. Demostramos que Skywork-Reward-V2 es versátil en una amplia gama de capacidades, incluyendo la alineación con las preferencias humanas, la corrección objetiva, la seguridad, la resistencia a los sesgos estilísticos y la escalabilidad de mejor-de-N, logrando un rendimiento de vanguardia en siete puntos de referencia principales de modelos de recompensa. Los estudios de ablación confirman que la efectividad de nuestro enfoque no solo se debe a la escala de los datos, sino también a la alta calidad de la curación. La serie Skywork-Reward-V2 representa un avance sustancial en los modelos de recompensa abiertos, destacando el potencial no explotado de los conjuntos de datos de preferencias existentes y demostrando cómo la sinergia de curación humano-IA puede desbloquear una calidad de datos significativamente mayor.
English
Despite the critical role of reward models (RMs) in reinforcement learning
from human feedback (RLHF), current state-of-the-art open RMs perform poorly on
most existing evaluation benchmarks, failing to capture the spectrum of nuanced
and sophisticated human preferences. Even approaches that incorporate advanced
training techniques have not yielded meaningful performance improvements. We
hypothesize that this brittleness stems primarily from limitations in
preference datasets, which are often narrowly scoped, synthetically labeled, or
lack rigorous quality control. To address these challenges, we present a
large-scale preference dataset comprising 40 million preference pairs, named
SynPref-40M. To enable data curation at scale, we design a human-AI synergistic
two-stage pipeline that leverages the complementary strengths of human
annotation quality and AI scalability. In this pipeline, humans provide
verified annotations, while large language models perform automatic curation
based on human guidance. Training on this preference mixture, we introduce
Skywork-Reward-V2, a suite of eight reward models ranging from 0.6B to 8B
parameters, trained on a carefully curated subset of 26 million preference
pairs from SynPref-40M. We demonstrate that Skywork-Reward-V2 is versatile
across a wide range of capabilities, including alignment with human
preferences, objective correctness, safety, resistance to stylistic biases, and
best-of-N scaling, achieving state-of-the-art performance across seven major
reward model benchmarks. Ablation studies confirm that the effectiveness of our
approach stems not only from data scale but also from high-quality curation.
The Skywork-Reward-V2 series represents substantial progress in open reward
models, highlighting the untapped potential of existing preference datasets and
demonstrating how human-AI curation synergy can unlock significantly higher
data quality.