WorldPM: 인간 선호 모델링의 확장
WorldPM: Scaling Human Preference Modeling
May 15, 2025
저자: Binghai Wang, Runji Lin, Keming Lu, Le Yu, Zhenru Zhang, Fei Huang, Chujie Zheng, Kai Dang, Yang Fan, Xingzhang Ren, An Yang, Binyuan Hui, Dayiheng Liu, Tao Gui, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Bowen Yu, Jingren Zhou, Junyang Lin
cs.AI
초록
언어 모델링에서 테스트 손실이 모델 크기와 데이터셋 크기에 따라 멱법칙(power law)으로 스케일링된다는 스케일링 법칙에 영감을 받아, 우리는 선호도 모델링에서도 유사한 법칙이 존재함을 발견했습니다. 우리는 이러한 스케일링 잠재력을 강조하기 위해 World Preference Modeling(WorldPM)을 제안하며, 여기서 World Preference는 인간 선호도의 통합된 표현을 의미합니다. 본 논문에서는 다양한 사용자 커뮤니티를 아우르는 공개 포럼에서 선호도 데이터를 수집하고, 1.5B에서 72B 파라미터에 이르는 모델들을 대상으로 15M 규모의 데이터를 활용해 광범위한 학습을 진행했습니다. 우리는 다양한 평가 지표에서 뚜렷한 패턴을 관찰했습니다: (1) 적대적 지표(기만적 특성을 식별하는 능력)는 학습 데이터와 기본 모델 크기가 증가함에 따라 지속적으로 향상됩니다; (2) 객관적 지표(명확한 답이 있는 객관적 지식)는 더 큰 언어 모델에서 급격한 성능 향상을 보이며, WorldPM의 스케일링 잠재력을 강조합니다; (3) 주관적 지표(제한된 수의 인간 또는 AI의 주관적 선호도)는 스케일링 경향을 보이지 않습니다. 추가 실험을 통해 WorldPM이 선호도 미세 조정을 위한 기반으로서의 효과성을 입증했습니다. 20개의 하위 작업으로 구성된 7개의 벤치마크에서 평가를 진행한 결과, WorldPM은 다양한 크기(7K, 100K, 800K 샘플)의 인간 선호도 데이터셋에서 일반화 성능을 광범위하게 개선하며, 많은 주요 하위 작업에서 5% 이상의 성능 향상을 보였습니다. WorldPM을 내부 RLHF 파이프라인에 통합한 결과, 내부 및 공개 평가 세트 모두에서 상당한 개선이 관찰되었으며, 특히 내부 평가에서는 4%에서 8%의 주목할 만한 성능 향상을 확인했습니다.
English
Motivated by scaling laws in language modeling that demonstrate how test loss
scales as a power law with model and dataset sizes, we find that similar laws
exist in preference modeling. We propose World Preference Modeling$ (WorldPM)
to emphasize this scaling potential, where World Preference embodies a unified
representation of human preferences. In this paper, we collect preference data
from public forums covering diverse user communities, and conduct extensive
training using 15M-scale data across models ranging from 1.5B to 72B
parameters. We observe distinct patterns across different evaluation metrics:
(1) Adversarial metrics (ability to identify deceptive features) consistently
scale up with increased training data and base model size; (2) Objective
metrics (objective knowledge with well-defined answers) show emergent behavior
in larger language models, highlighting WorldPM's scalability potential; (3)
Subjective metrics (subjective preferences from a limited number of humans or
AI) do not demonstrate scaling trends. Further experiments validate the
effectiveness of WorldPM as a foundation for preference fine-tuning. Through
evaluations on 7 benchmarks with 20 subtasks, we find that WorldPM broadly
improves the generalization performance across human preference datasets of
varying sizes (7K, 100K and 800K samples), with performance gains exceeding 5%
on many key subtasks. Integrating WorldPM into our internal RLHF pipeline, we
observe significant improvements on both in-house and public evaluation sets,
with notable gains of 4% to 8% in our in-house evaluations.Summary
AI-Generated Summary