WorldPM: Escalando el Modelado de Preferencias Humanas
WorldPM: Scaling Human Preference Modeling
May 15, 2025
Autores: Binghai Wang, Runji Lin, Keming Lu, Le Yu, Zhenru Zhang, Fei Huang, Chujie Zheng, Kai Dang, Yang Fan, Xingzhang Ren, An Yang, Binyuan Hui, Dayiheng Liu, Tao Gui, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Bowen Yu, Jingren Zhou, Junyang Lin
cs.AI
Resumen
Motivados por las leyes de escalamiento en el modelado del lenguaje, que demuestran cómo la pérdida en pruebas escala como una ley de potencia con el tamaño del modelo y del conjunto de datos, descubrimos que existen leyes similares en el modelado de preferencias. Proponemos el Modelado de Preferencias Mundiales (WorldPM) para enfatizar este potencial de escalamiento, donde las Preferencias Mundiales representan una unificación de las preferencias humanas. En este artículo, recopilamos datos de preferencias de foros públicos que cubren diversas comunidades de usuarios y realizamos un entrenamiento extensivo utilizando datos a escala de 15M en modelos que van desde 1.5B hasta 72B parámetros. Observamos patrones distintos en diferentes métricas de evaluación: (1) Las métricas adversarias (capacidad para identificar características engañosas) escalan consistentemente con el aumento de datos de entrenamiento y el tamaño del modelo base; (2) Las métricas objetivas (conocimiento objetivo con respuestas bien definidas) muestran comportamientos emergentes en modelos de lenguaje más grandes, destacando el potencial de escalabilidad de WorldPM; (3) Las métricas subjetivas (preferencias subjetivas de un número limitado de humanos o IA) no muestran tendencias de escalamiento. Experimentos adicionales validan la efectividad de WorldPM como base para el ajuste fino de preferencias. A través de evaluaciones en 7 benchmarks con 20 subtareas, encontramos que WorldPM mejora ampliamente el rendimiento de generalización en conjuntos de datos de preferencias humanas de diversos tamaños (7K, 100K y 800K muestras), con ganancias de rendimiento que superan el 5% en muchas subtareas clave. Al integrar WorldPM en nuestra canalización interna de RLHF, observamos mejoras significativas tanto en conjuntos de evaluación internos como públicos, con ganancias notables del 4% al 8% en nuestras evaluaciones internas.
English
Motivated by scaling laws in language modeling that demonstrate how test loss
scales as a power law with model and dataset sizes, we find that similar laws
exist in preference modeling. We propose World Preference Modeling$ (WorldPM)
to emphasize this scaling potential, where World Preference embodies a unified
representation of human preferences. In this paper, we collect preference data
from public forums covering diverse user communities, and conduct extensive
training using 15M-scale data across models ranging from 1.5B to 72B
parameters. We observe distinct patterns across different evaluation metrics:
(1) Adversarial metrics (ability to identify deceptive features) consistently
scale up with increased training data and base model size; (2) Objective
metrics (objective knowledge with well-defined answers) show emergent behavior
in larger language models, highlighting WorldPM's scalability potential; (3)
Subjective metrics (subjective preferences from a limited number of humans or
AI) do not demonstrate scaling trends. Further experiments validate the
effectiveness of WorldPM as a foundation for preference fine-tuning. Through
evaluations on 7 benchmarks with 20 subtasks, we find that WorldPM broadly
improves the generalization performance across human preference datasets of
varying sizes (7K, 100K and 800K samples), with performance gains exceeding 5%
on many key subtasks. Integrating WorldPM into our internal RLHF pipeline, we
observe significant improvements on both in-house and public evaluation sets,
with notable gains of 4% to 8% in our in-house evaluations.Summary
AI-Generated Summary