ChatPaper.aiChatPaper

WorldPM: 人間の選好モデリングのスケーリング

WorldPM: Scaling Human Preference Modeling

May 15, 2025
著者: Binghai Wang, Runji Lin, Keming Lu, Le Yu, Zhenru Zhang, Fei Huang, Chujie Zheng, Kai Dang, Yang Fan, Xingzhang Ren, An Yang, Binyuan Hui, Dayiheng Liu, Tao Gui, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Bowen Yu, Jingren Zhou, Junyang Lin
cs.AI

要旨

言語モデリングにおけるスケーリング則に着想を得て、テスト損失がモデルサイズとデータセットサイズに対してべき乗則的にスケールすることを示す研究を踏まえ、我々は選好モデリングにおいても同様の法則が存在することを発見しました。本論文では、このスケーリング可能性を強調するため、World Preference Modeling(WorldPM)を提案します。ここでWorld Preferenceは、人間の選好を統一的に表現する概念です。本研究では、多様なユーザーコミュニティをカバーする公開フォーラムから選好データを収集し、1.5Bから72Bパラメータまでのモデルを用いて15M規模のデータで広範なトレーニングを実施しました。異なる評価指標にわたって以下の特徴的なパターンを観察しました:(1) 敵対的指標(欺瞞的な特徴を識別する能力)は、トレーニングデータとベースモデルサイズの増加に伴って一貫してスケールアップする、(2) 客観的指標(明確な答えを持つ客観的知識)は大規模言語モデルにおいて創発的振る舞いを示し、WorldPMのスケーラビリティの可能性を強調する、(3) 主観的指標(限られた数の人間またはAIからの主観的選好)はスケーリングの傾向を示さない。さらに、選好ファインチューニングの基盤としてのWorldPMの有効性を検証する追加実験を行いました。7つのベンチマークと20のサブタスクによる評価を通じて、WorldPMが様々なサイズ(7K、100K、800Kサンプル)の人間選好データセットにわたって一般化性能を広く向上させ、多くの主要サブタスクで5%を超える性能向上をもたらすことを確認しました。WorldPMを内部のRLHFパイプラインに統合した結果、社内評価セットと公開評価セットの両方で顕著な改善が見られ、社内評価では4%から8%の顕著な向上を観測しました。
English
Motivated by scaling laws in language modeling that demonstrate how test loss scales as a power law with model and dataset sizes, we find that similar laws exist in preference modeling. We propose World Preference Modeling$ (WorldPM) to emphasize this scaling potential, where World Preference embodies a unified representation of human preferences. In this paper, we collect preference data from public forums covering diverse user communities, and conduct extensive training using 15M-scale data across models ranging from 1.5B to 72B parameters. We observe distinct patterns across different evaluation metrics: (1) Adversarial metrics (ability to identify deceptive features) consistently scale up with increased training data and base model size; (2) Objective metrics (objective knowledge with well-defined answers) show emergent behavior in larger language models, highlighting WorldPM's scalability potential; (3) Subjective metrics (subjective preferences from a limited number of humans or AI) do not demonstrate scaling trends. Further experiments validate the effectiveness of WorldPM as a foundation for preference fine-tuning. Through evaluations on 7 benchmarks with 20 subtasks, we find that WorldPM broadly improves the generalization performance across human preference datasets of varying sizes (7K, 100K and 800K samples), with performance gains exceeding 5% on many key subtasks. Integrating WorldPM into our internal RLHF pipeline, we observe significant improvements on both in-house and public evaluation sets, with notable gains of 4% to 8% in our in-house evaluations.

Summary

AI-Generated Summary

PDF142May 16, 2025