ChatPaper.aiChatPaper

WorldPM: Skalierung der Modellierung menschlicher Präferenzen

WorldPM: Scaling Human Preference Modeling

May 15, 2025
Autoren: Binghai Wang, Runji Lin, Keming Lu, Le Yu, Zhenru Zhang, Fei Huang, Chujie Zheng, Kai Dang, Yang Fan, Xingzhang Ren, An Yang, Binyuan Hui, Dayiheng Liu, Tao Gui, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Bowen Yu, Jingren Zhou, Junyang Lin
cs.AI

Zusammenfassung

Motiviert durch Skalierungsgesetze im Sprachmodellierung, die zeigen, wie der Testverlust als Potenzgesetz mit der Modell- und Datensatzgröße skaliert, finden wir, dass ähnliche Gesetze in der Präferenzmodellierung existieren. Wir schlagen World Preference Modeling (WorldPM) vor, um dieses Skalierungspotenzial zu betonen, wobei World Preference eine vereinheitlichte Darstellung menschlicher Präferenzen verkörpert. In diesem Artikel sammeln wir Präferenzdaten aus öffentlichen Foren, die verschiedene Nutzergemeinschaften abdecken, und führen umfangreiche Trainings mit 15M-Daten über Modelle mit 1,5B bis 72B Parametern durch. Wir beobachten unterschiedliche Muster bei verschiedenen Bewertungsmetriken: (1) Adversariale Metriken (Fähigkeit, trügerische Merkmale zu identifizieren) skalieren konsistent mit erhöhten Trainingsdaten und Basismodellgröße; (2) Objektive Metriken (objektives Wissen mit klar definierten Antworten) zeigen emergentes Verhalten in größeren Sprachmodellen, was das Skalierungspotenzial von WorldPM unterstreicht; (3) Subjektive Metriken (subjektive Präferenzen von einer begrenzten Anzahl von Menschen oder KI) zeigen keine Skalierungstrends. Weitere Experimente validieren die Wirksamkeit von WorldPM als Grundlage für die Präferenz-Feinabstimmung. Durch Bewertungen auf 7 Benchmarks mit 20 Unteraufgaben stellen wir fest, dass WorldPM die Generalisierungsleistung über menschliche Präferenzdatensätze verschiedener Größen (7K, 100K und 800K Proben) breit verbessert, mit Leistungssteigerungen von über 5% bei vielen Schlüsselunteraufgaben. Durch die Integration von WorldPM in unsere interne RLHF-Pipeline beobachten wir signifikante Verbesserungen sowohl bei internen als auch bei öffentlichen Bewertungssätzen, mit bemerkenswerten Gewinnen von 4% bis 8% in unseren internen Bewertungen.
English
Motivated by scaling laws in language modeling that demonstrate how test loss scales as a power law with model and dataset sizes, we find that similar laws exist in preference modeling. We propose World Preference Modeling$ (WorldPM) to emphasize this scaling potential, where World Preference embodies a unified representation of human preferences. In this paper, we collect preference data from public forums covering diverse user communities, and conduct extensive training using 15M-scale data across models ranging from 1.5B to 72B parameters. We observe distinct patterns across different evaluation metrics: (1) Adversarial metrics (ability to identify deceptive features) consistently scale up with increased training data and base model size; (2) Objective metrics (objective knowledge with well-defined answers) show emergent behavior in larger language models, highlighting WorldPM's scalability potential; (3) Subjective metrics (subjective preferences from a limited number of humans or AI) do not demonstrate scaling trends. Further experiments validate the effectiveness of WorldPM as a foundation for preference fine-tuning. Through evaluations on 7 benchmarks with 20 subtasks, we find that WorldPM broadly improves the generalization performance across human preference datasets of varying sizes (7K, 100K and 800K samples), with performance gains exceeding 5% on many key subtasks. Integrating WorldPM into our internal RLHF pipeline, we observe significant improvements on both in-house and public evaluation sets, with notable gains of 4% to 8% in our in-house evaluations.

Summary

AI-Generated Summary

PDF142May 16, 2025