ChatPaper.aiChatPaper

WorldPM: Schaalbaar modelleren van menselijke voorkeuren

WorldPM: Scaling Human Preference Modeling

May 15, 2025
Auteurs: Binghai Wang, Runji Lin, Keming Lu, Le Yu, Zhenru Zhang, Fei Huang, Chujie Zheng, Kai Dang, Yang Fan, Xingzhang Ren, An Yang, Binyuan Hui, Dayiheng Liu, Tao Gui, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Bowen Yu, Jingren Zhou, Junyang Lin
cs.AI

Samenvatting

Gemotiveerd door schaalwetten in taalmodellering die aantonen hoe de testverlies schaalt volgens een machtswet met model- en datasetgroottes, ontdekken we dat soortgelijke wetten bestaan in voorkeursmodellering. We stellen World Preference Modeling (WorldPM) voor om dit schaalpotentieel te benadrukken, waarbij World Preference een verenigde weergave van menselijke voorkeuren belichaamt. In dit artikel verzamelen we voorkeursgegevens van openbare forums die diverse gebruikersgemeenschappen bestrijken, en voeren we uitgebreide training uit met 15M-schaal gegevens over modellen variërend van 1,5B tot 72B parameters. We observeren duidelijke patronen in verschillende evaluatiemetrics: (1) Adversariële metrics (het vermogen om misleidende kenmerken te identificeren) schalen consistent op met meer trainingsgegevens en basismodelgrootte; (2) Objectieve metrics (objectieve kennis met goed gedefinieerde antwoorden) vertonen emergent gedrag in grotere taalmodellen, wat het schaalpotentieel van WorldPM benadrukt; (3) Subjectieve metrics (subjectieve voorkeuren van een beperkt aantal mensen of AI) vertonen geen schaaltrends. Verdere experimenten valideren de effectiviteit van WorldPM als basis voor voorkeursfine-tuning. Door evaluaties op 7 benchmarks met 20 subtaken, vinden we dat WorldPM de generalisatieprestaties breed verbetert over menselijke voorkeursdatasets van verschillende groottes (7K, 100K en 800K samples), met prestatieverbeteringen van meer dan 5% op veel belangrijke subtaken. Door WorldPM te integreren in onze interne RLHF-pijplijn, observeren we significante verbeteringen op zowel interne als openbare evaluatiesets, met opmerkelijke winsten van 4% tot 8% in onze interne evaluaties.
English
Motivated by scaling laws in language modeling that demonstrate how test loss scales as a power law with model and dataset sizes, we find that similar laws exist in preference modeling. We propose World Preference Modeling$ (WorldPM) to emphasize this scaling potential, where World Preference embodies a unified representation of human preferences. In this paper, we collect preference data from public forums covering diverse user communities, and conduct extensive training using 15M-scale data across models ranging from 1.5B to 72B parameters. We observe distinct patterns across different evaluation metrics: (1) Adversarial metrics (ability to identify deceptive features) consistently scale up with increased training data and base model size; (2) Objective metrics (objective knowledge with well-defined answers) show emergent behavior in larger language models, highlighting WorldPM's scalability potential; (3) Subjective metrics (subjective preferences from a limited number of humans or AI) do not demonstrate scaling trends. Further experiments validate the effectiveness of WorldPM as a foundation for preference fine-tuning. Through evaluations on 7 benchmarks with 20 subtasks, we find that WorldPM broadly improves the generalization performance across human preference datasets of varying sizes (7K, 100K and 800K samples), with performance gains exceeding 5% on many key subtasks. Integrating WorldPM into our internal RLHF pipeline, we observe significant improvements on both in-house and public evaluation sets, with notable gains of 4% to 8% in our in-house evaluations.

Summary

AI-Generated Summary

PDF332May 16, 2025