WorldPM : Mise à l'échelle de la modélisation des préférences humaines
WorldPM: Scaling Human Preference Modeling
May 15, 2025
Auteurs: Binghai Wang, Runji Lin, Keming Lu, Le Yu, Zhenru Zhang, Fei Huang, Chujie Zheng, Kai Dang, Yang Fan, Xingzhang Ren, An Yang, Binyuan Hui, Dayiheng Liu, Tao Gui, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Bowen Yu, Jingren Zhou, Junyang Lin
cs.AI
Résumé
Motivés par les lois d'échelle en modélisation du langage qui démontrent comment la perte en test évolue selon une loi de puissance avec la taille des modèles et des jeux de données, nous constatons que des lois similaires existent dans la modélisation des préférences. Nous proposons la Modélisation des Préférences Mondiales (WorldPM) pour mettre en avant ce potentiel d'échelle, où les Préférences Mondiales incarnent une représentation unifiée des préférences humaines. Dans cet article, nous collectons des données de préférences provenant de forums publics couvrant diverses communautés d'utilisateurs, et menons un entraînement extensif sur des données à l'échelle de 15M à travers des modèles allant de 1,5B à 72B paramètres. Nous observons des tendances distinctes selon les différentes métriques d'évaluation : (1) Les métriques adverses (capacité à identifier des caractéristiques trompeuses) s'améliorent systématiquement avec l'augmentation des données d'entraînement et de la taille du modèle de base ; (2) Les métriques objectives (connaissances factuelles avec des réponses bien définies) montrent un comportement émergent dans les modèles de langage plus grands, soulignant le potentiel d'échelle de WorldPM ; (3) Les métriques subjectives (préférences subjectives issues d'un nombre limité d'humains ou d'IA) ne présentent pas de tendances d'échelle. Des expériences supplémentaires valident l'efficacité de WorldPM comme base pour l'affinage des préférences. À travers des évaluations sur 7 benchmarks comprenant 20 sous-tâches, nous constatons que WorldPM améliore globalement la performance de généralisation sur des jeux de données de préférences humaines de tailles variées (7K, 100K et 800K échantillons), avec des gains de performance dépassant 5% sur de nombreuses sous-tâches clés. En intégrant WorldPM dans notre pipeline interne de RLHF, nous observons des améliorations significatives sur les ensembles d'évaluation internes et publics, avec des gains notables de 4% à 8% dans nos évaluations internes.
English
Motivated by scaling laws in language modeling that demonstrate how test loss
scales as a power law with model and dataset sizes, we find that similar laws
exist in preference modeling. We propose World Preference Modeling$ (WorldPM)
to emphasize this scaling potential, where World Preference embodies a unified
representation of human preferences. In this paper, we collect preference data
from public forums covering diverse user communities, and conduct extensive
training using 15M-scale data across models ranging from 1.5B to 72B
parameters. We observe distinct patterns across different evaluation metrics:
(1) Adversarial metrics (ability to identify deceptive features) consistently
scale up with increased training data and base model size; (2) Objective
metrics (objective knowledge with well-defined answers) show emergent behavior
in larger language models, highlighting WorldPM's scalability potential; (3)
Subjective metrics (subjective preferences from a limited number of humans or
AI) do not demonstrate scaling trends. Further experiments validate the
effectiveness of WorldPM as a foundation for preference fine-tuning. Through
evaluations on 7 benchmarks with 20 subtasks, we find that WorldPM broadly
improves the generalization performance across human preference datasets of
varying sizes (7K, 100K and 800K samples), with performance gains exceeding 5%
on many key subtasks. Integrating WorldPM into our internal RLHF pipeline, we
observe significant improvements on both in-house and public evaluation sets,
with notable gains of 4% to 8% in our in-house evaluations.