ChatPaper.aiChatPaper

WorldPM: Scalabilità della Modellizzazione delle Preferenze Umane

WorldPM: Scaling Human Preference Modeling

May 15, 2025
Autori: Binghai Wang, Runji Lin, Keming Lu, Le Yu, Zhenru Zhang, Fei Huang, Chujie Zheng, Kai Dang, Yang Fan, Xingzhang Ren, An Yang, Binyuan Hui, Dayiheng Liu, Tao Gui, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Bowen Yu, Jingren Zhou, Junyang Lin
cs.AI

Abstract

Motivati dalle leggi di scala nel modeling linguistico che dimostrano come la perdita in fase di test si riduca seguendo una legge di potenza con l'aumento delle dimensioni del modello e del dataset, scopriamo che leggi simili esistono nel modeling delle preferenze. Proponiamo il World Preference Modeling (WorldPM) per enfatizzare questo potenziale di scala, dove World Preference rappresenta una rappresentazione unificata delle preferenze umane. In questo articolo, raccogliamo dati sulle preferenze da forum pubblici che coprono diverse comunità di utenti e conduciamo un ampio addestramento utilizzando dati su scala 15M su modelli che vanno da 1,5B a 72B parametri. Osserviamo modelli distinti attraverso diverse metriche di valutazione: (1) Le metriche avversarie (capacità di identificare caratteristiche ingannevoli) aumentano costantemente con l'aumento dei dati di addestramento e delle dimensioni del modello di base; (2) Le metriche oggettive (conoscenza oggettiva con risposte ben definite) mostrano comportamenti emergenti nei modelli linguistici più grandi, evidenziando il potenziale di scalabilità del WorldPM; (3) Le metriche soggettive (preferenze soggettive da un numero limitato di umani o AI) non dimostrano tendenze di scala. Ulteriori esperimenti convalidano l'efficacia del WorldPM come base per il fine-tuning delle preferenze. Attraverso valutazioni su 7 benchmark con 20 sottotask, scopriamo che il WorldPM migliora ampiamente le prestazioni di generalizzazione su dataset di preferenze umane di dimensioni variabili (7K, 100K e 800K campioni), con guadagni di prestazioni superiori al 5% su molti sottotask chiave. Integrando il WorldPM nella nostra pipeline interna RLHF, osserviamo miglioramenti significativi sia sui set di valutazione interni che su quelli pubblici, con guadagni notevoli dal 4% all'8% nelle nostre valutazioni interne.
English
Motivated by scaling laws in language modeling that demonstrate how test loss scales as a power law with model and dataset sizes, we find that similar laws exist in preference modeling. We propose World Preference Modeling$ (WorldPM) to emphasize this scaling potential, where World Preference embodies a unified representation of human preferences. In this paper, we collect preference data from public forums covering diverse user communities, and conduct extensive training using 15M-scale data across models ranging from 1.5B to 72B parameters. We observe distinct patterns across different evaluation metrics: (1) Adversarial metrics (ability to identify deceptive features) consistently scale up with increased training data and base model size; (2) Objective metrics (objective knowledge with well-defined answers) show emergent behavior in larger language models, highlighting WorldPM's scalability potential; (3) Subjective metrics (subjective preferences from a limited number of humans or AI) do not demonstrate scaling trends. Further experiments validate the effectiveness of WorldPM as a foundation for preference fine-tuning. Through evaluations on 7 benchmarks with 20 subtasks, we find that WorldPM broadly improves the generalization performance across human preference datasets of varying sizes (7K, 100K and 800K samples), with performance gains exceeding 5% on many key subtasks. Integrating WorldPM into our internal RLHF pipeline, we observe significant improvements on both in-house and public evaluation sets, with notable gains of 4% to 8% in our in-house evaluations.
PDF342May 16, 2025