ChatPaper.aiChatPaper

WorldPM: Escalonando a Modelagem de Preferências Humanas

WorldPM: Scaling Human Preference Modeling

May 15, 2025
Autores: Binghai Wang, Runji Lin, Keming Lu, Le Yu, Zhenru Zhang, Fei Huang, Chujie Zheng, Kai Dang, Yang Fan, Xingzhang Ren, An Yang, Binyuan Hui, Dayiheng Liu, Tao Gui, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Bowen Yu, Jingren Zhou, Junyang Lin
cs.AI

Resumo

Motivados pelas leis de escala na modelagem de linguagem, que demonstram como a perda no teste escala como uma lei de potência com o tamanho do modelo e do conjunto de dados, descobrimos que leis semelhantes existem na modelagem de preferências. Propomos o Modelo de Preferências Globais (World Preference Modeling - WorldPM) para enfatizar esse potencial de escalabilidade, onde Preferência Global representa uma representação unificada das preferências humanas. Neste artigo, coletamos dados de preferência de fóruns públicos que abrangem diversas comunidades de usuários e realizamos treinamentos extensivos usando dados em escala de 15M em modelos que variam de 1,5B a 72B parâmetros. Observamos padrões distintos em diferentes métricas de avaliação: (1) Métricas adversariais (capacidade de identificar características enganosas) escalam consistentemente com o aumento dos dados de treinamento e do tamanho do modelo base; (2) Métricas objetivas (conhecimento objetivo com respostas bem definidas) mostram comportamento emergente em modelos de linguagem maiores, destacando o potencial de escalabilidade do WorldPM; (3) Métricas subjetivas (preferências subjetivas de um número limitado de humanos ou IA) não demonstram tendências de escalabilidade. Experimentos adicionais validam a eficácia do WorldPM como base para o ajuste fino de preferências. Por meio de avaliações em 7 benchmarks com 20 subtarefas, descobrimos que o WorldPM melhora amplamente o desempenho de generalização em conjuntos de dados de preferências humanas de tamanhos variados (7K, 100K e 800K amostras), com ganhos de desempenho superiores a 5% em muitas subtarefas-chave. Integrando o WorldPM em nosso pipeline interno de RLHF, observamos melhorias significativas tanto em conjuntos de avaliação internos quanto públicos, com ganhos notáveis de 4% a 8% em nossas avaliações internas.
English
Motivated by scaling laws in language modeling that demonstrate how test loss scales as a power law with model and dataset sizes, we find that similar laws exist in preference modeling. We propose World Preference Modeling$ (WorldPM) to emphasize this scaling potential, where World Preference embodies a unified representation of human preferences. In this paper, we collect preference data from public forums covering diverse user communities, and conduct extensive training using 15M-scale data across models ranging from 1.5B to 72B parameters. We observe distinct patterns across different evaluation metrics: (1) Adversarial metrics (ability to identify deceptive features) consistently scale up with increased training data and base model size; (2) Objective metrics (objective knowledge with well-defined answers) show emergent behavior in larger language models, highlighting WorldPM's scalability potential; (3) Subjective metrics (subjective preferences from a limited number of humans or AI) do not demonstrate scaling trends. Further experiments validate the effectiveness of WorldPM as a foundation for preference fine-tuning. Through evaluations on 7 benchmarks with 20 subtasks, we find that WorldPM broadly improves the generalization performance across human preference datasets of varying sizes (7K, 100K and 800K samples), with performance gains exceeding 5% on many key subtasks. Integrating WorldPM into our internal RLHF pipeline, we observe significant improvements on both in-house and public evaluation sets, with notable gains of 4% to 8% in our in-house evaluations.
PDF342May 16, 2025