Het verkennen van schaaltrends en effecten van gegevens in Reinforcement Learning vanuit menselijke feedback
Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback
March 28, 2025
Auteurs: Wei Shen, Guanlin Liu, Zheng Wu, Ruofei Zhu, Qingping Yang, Chao Xin, Yu Yue, Lin Yan
cs.AI
Samenvatting
Reinforcement Learning from Human Feedback (RLHF) is cruciaal voor het afstemmen van grote taalmodelen op menselijke voorkeuren. Hoewel recent onderzoek zich heeft gericht op algoritmische verbeteringen, is het belang van de constructie van prompt-data over het hoofd gezien. Dit artikel behandelt deze leemte door datagestuurde knelpunten in de schaalbaarheid van RLHF-prestaties te onderzoeken, met name reward hacking en afnemende responsdiversiteit. We introduceren een hybride beloningssysteem dat reasoning task verifiers (RTV) en een generatief beloningsmodel (GenRM) combineert om reward hacking te beperken. We stellen ook een nieuwe prompt-selectiemethode voor, Pre-PPO, om de responsdiversiteit te behouden en de leer effectiviteit te verbeteren. Daarnaast ontdekken we dat het prioriteren van wiskundige en programmeertaken vroeg in de RLHF-training de prestaties aanzienlijk verbetert. Experimenten met twee modelgroottes valideren de effectiviteit en schaalbaarheid van onze methoden. De resultaten tonen aan dat RTV het meest resistent is tegen reward hacking, gevolgd door GenRM met grondwaarheid, en vervolgens GenRM met SFT Best-of-N-responsen. Onze strategieën maken het mogelijk om snel subtiele taakspecifieke onderscheidingen vast te leggen, wat leidt tot aanzienlijke verbeteringen in de algehele RLHF-prestaties. Dit werk benadrukt het belang van zorgvuldige dataconstructie en biedt praktische methoden om prestatiebarrières in RLHF te overwinnen.
English
Reinforcement Learning from Human Feedback (RLHF) is crucial for aligning
large language models with human preferences. While recent research has focused
on algorithmic improvements, the importance of prompt-data construction has
been overlooked. This paper addresses this gap by exploring data-driven
bottlenecks in RLHF performance scaling, particularly reward hacking and
decreasing response diversity. We introduce a hybrid reward system combining
reasoning task verifiers (RTV) and a generative reward model (GenRM) to
mitigate reward hacking. We also propose a novel prompt-selection method,
Pre-PPO, to maintain response diversity and enhance learning effectiveness.
Additionally, we find that prioritizing mathematical and coding tasks early in
RLHF training significantly improves performance. Experiments across two model
sizes validate our methods' effectiveness and scalability. Results show that
RTV is most resistant to reward hacking, followed by GenRM with ground truth,
and then GenRM with SFT Best-of-N responses. Our strategies enable rapid
capture of subtle task-specific distinctions, leading to substantial
improvements in overall RLHF performance. This work highlights the importance
of careful data construction and provides practical methods to overcome
performance barriers in RLHF.Summary
AI-Generated Summary