Исследование тенденций и эффектов масштабирования данных в обучении с подкреплением на основе обратной связи от человека
Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback
March 28, 2025
Авторы: Wei Shen, Guanlin Liu, Zheng Wu, Ruofei Zhu, Qingping Yang, Chao Xin, Yu Yue, Lin Yan
cs.AI
Аннотация
Обучение с подкреплением на основе обратной связи от человека (RLHF) играет ключевую роль в согласовании крупных языковых моделей с человеческими предпочтениями. Хотя последние исследования сосредоточены на улучшении алгоритмов, важность конструирования данных для промптов остаётся недооцененной. В данной работе мы устраняем этот пробел, исследуя ограничения, связанные с данными, которые препятствуют масштабированию производительности RLHF, в частности, проблему "взлома наград" и снижение разнообразия ответов. Мы представляем гибридную систему наград, сочетающую верификаторы задач на рассуждение (RTV) и генеративную модель наград (GenRM), чтобы смягчить проблему взлома наград. Также мы предлагаем новый метод выбора промптов, Pre-PPO, для сохранения разнообразия ответов и повышения эффективности обучения. Кроме того, мы обнаружили, что приоритизация математических и программистских задач на ранних этапах обучения RLHF значительно улучшает производительность. Эксперименты на двух размерах моделей подтверждают эффективность и масштабируемость наших методов. Результаты показывают, что RTV наиболее устойчив к взлому наград, за ним следует GenRM с эталонными данными, а затем GenRM с ответами SFT Best-of-N. Наши стратегии позволяют быстро улавливать тонкие различия, специфичные для задач, что приводит к существенному улучшению общей производительности RLHF. Эта работа подчеркивает важность тщательного конструирования данных и предлагает практические методы для преодоления барьеров производительности в RLHF.
English
Reinforcement Learning from Human Feedback (RLHF) is crucial for aligning
large language models with human preferences. While recent research has focused
on algorithmic improvements, the importance of prompt-data construction has
been overlooked. This paper addresses this gap by exploring data-driven
bottlenecks in RLHF performance scaling, particularly reward hacking and
decreasing response diversity. We introduce a hybrid reward system combining
reasoning task verifiers (RTV) and a generative reward model (GenRM) to
mitigate reward hacking. We also propose a novel prompt-selection method,
Pre-PPO, to maintain response diversity and enhance learning effectiveness.
Additionally, we find that prioritizing mathematical and coding tasks early in
RLHF training significantly improves performance. Experiments across two model
sizes validate our methods' effectiveness and scalability. Results show that
RTV is most resistant to reward hacking, followed by GenRM with ground truth,
and then GenRM with SFT Best-of-N responses. Our strategies enable rapid
capture of subtle task-specific distinctions, leading to substantial
improvements in overall RLHF performance. This work highlights the importance
of careful data construction and provides practical methods to overcome
performance barriers in RLHF.