ChatPaper.aiChatPaper

WorldPM: Масштабирование моделирования человеческих предпочтений

WorldPM: Scaling Human Preference Modeling

May 15, 2025
Авторы: Binghai Wang, Runji Lin, Keming Lu, Le Yu, Zhenru Zhang, Fei Huang, Chujie Zheng, Kai Dang, Yang Fan, Xingzhang Ren, An Yang, Binyuan Hui, Dayiheng Liu, Tao Gui, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Bowen Yu, Jingren Zhou, Junyang Lin
cs.AI

Аннотация

Вдохновленные законами масштабирования в языковом моделировании, которые демонстрируют, как тестовая ошибка изменяется по степенному закону в зависимости от размеров модели и набора данных, мы обнаружили, что аналогичные законы существуют и в моделировании предпочтений. Мы предлагаем подход World Preference Modeling (WorldPM), чтобы подчеркнуть этот потенциал масштабирования, где World Preference представляет собой унифицированное представление человеческих предпочтений. В данной работе мы собираем данные о предпочтениях из публичных форумов, охватывающих различные пользовательские сообщества, и проводим масштабное обучение на данных объемом 15 миллионов примеров для моделей с количеством параметров от 1,5 миллиарда до 72 миллиардов. Мы наблюдаем различные закономерности в зависимости от используемых метрик оценки: (1) Адверсариальные метрики (способность выявлять обманчивые признаки) последовательно улучшаются с увеличением объема обучающих данных и размера базовой модели; (2) Объективные метрики (объективные знания с четко определенными ответами) демонстрируют эмерджентное поведение в более крупных языковых моделях, подчеркивая потенциал масштабируемости WorldPM; (3) Субъективные метрики (субъективные предпочтения, основанные на ограниченном числе людей или ИИ) не показывают тенденций к масштабированию. Дополнительные эксперименты подтверждают эффективность WorldPM в качестве основы для тонкой настройки предпочтений. В ходе оценки на 7 бенчмарках с 20 подзадачами мы обнаружили, что WorldPM значительно улучшает обобщающую производительность на наборах данных о человеческих предпочтениях различного размера (7 тысяч, 100 тысяч и 800 тысяч примеров), с приростом производительности более чем на 5% по многим ключевым подзадачам. Интеграция WorldPM в наш внутренний конвейер RLHF привела к значительным улучшениям как на внутренних, так и на публичных наборах для оценки, с заметным приростом от 4% до 8% в наших внутренних тестах.
English
Motivated by scaling laws in language modeling that demonstrate how test loss scales as a power law with model and dataset sizes, we find that similar laws exist in preference modeling. We propose World Preference Modeling$ (WorldPM) to emphasize this scaling potential, where World Preference embodies a unified representation of human preferences. In this paper, we collect preference data from public forums covering diverse user communities, and conduct extensive training using 15M-scale data across models ranging from 1.5B to 72B parameters. We observe distinct patterns across different evaluation metrics: (1) Adversarial metrics (ability to identify deceptive features) consistently scale up with increased training data and base model size; (2) Objective metrics (objective knowledge with well-defined answers) show emergent behavior in larger language models, highlighting WorldPM's scalability potential; (3) Subjective metrics (subjective preferences from a limited number of humans or AI) do not demonstrate scaling trends. Further experiments validate the effectiveness of WorldPM as a foundation for preference fine-tuning. Through evaluations on 7 benchmarks with 20 subtasks, we find that WorldPM broadly improves the generalization performance across human preference datasets of varying sizes (7K, 100K and 800K samples), with performance gains exceeding 5% on many key subtasks. Integrating WorldPM into our internal RLHF pipeline, we observe significant improvements on both in-house and public evaluation sets, with notable gains of 4% to 8% in our in-house evaluations.

Summary

AI-Generated Summary

PDF142May 16, 2025