Untersuchung von Datenskalierungstrends und -effekten beim Reinforcement Learning aus menschlichem Feedback
Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback
March 28, 2025
Autoren: Wei Shen, Guanlin Liu, Zheng Wu, Ruofei Zhu, Qingping Yang, Chao Xin, Yu Yue, Lin Yan
cs.AI
Zusammenfassung
Reinforcement Learning from Human Feedback (RLHF) ist entscheidend, um große Sprachmodelle mit menschlichen Präferenzen in Einklang zu bringen. Während sich aktuelle Forschung auf algorithmische Verbesserungen konzentriert, wurde die Bedeutung der Konstruktion von Prompt-Daten vernachlässigt. Diese Arbeit schließt diese Lücke, indem sie datengetriebene Engpässe bei der Skalierung der RLHF-Leistung untersucht, insbesondere Reward Hacking und abnehmende Antwortvielfalt. Wir führen ein hybrides Belohnungssystem ein, das Reasoning-Task-Verifizierer (RTV) und ein generatives Belohnungsmodell (GenRM) kombiniert, um Reward Hacking zu mindern. Zudem schlagen wir eine neuartige Prompt-Auswahlmethode, Pre-PPO, vor, um die Antwortvielfalt zu erhalten und die Lerneffektivität zu steigern. Darüber hinaus zeigen wir, dass die Priorisierung mathematischer und Programmieraufgaben zu Beginn des RLHF-Trainings die Leistung erheblich verbessert. Experimente mit zwei Modellgrößen bestätigen die Wirksamkeit und Skalierbarkeit unserer Methoden. Die Ergebnisse zeigen, dass RTV am widerstandsfähigsten gegen Reward Hacking ist, gefolgt von GenRM mit Ground Truth und dann GenRM mit SFT Best-of-N-Antworten. Unsere Strategien ermöglichen die schnelle Erfassung subtiler, aufgabenbezogener Unterschiede, was zu erheblichen Verbesserungen der gesamten RLHF-Leistung führt. Diese Arbeit unterstreicht die Bedeutung sorgfältiger Datenkonstruktion und bietet praktische Methoden, um Leistungsbarrieren in RLHF zu überwinden.
English
Reinforcement Learning from Human Feedback (RLHF) is crucial for aligning
large language models with human preferences. While recent research has focused
on algorithmic improvements, the importance of prompt-data construction has
been overlooked. This paper addresses this gap by exploring data-driven
bottlenecks in RLHF performance scaling, particularly reward hacking and
decreasing response diversity. We introduce a hybrid reward system combining
reasoning task verifiers (RTV) and a generative reward model (GenRM) to
mitigate reward hacking. We also propose a novel prompt-selection method,
Pre-PPO, to maintain response diversity and enhance learning effectiveness.
Additionally, we find that prioritizing mathematical and coding tasks early in
RLHF training significantly improves performance. Experiments across two model
sizes validate our methods' effectiveness and scalability. Results show that
RTV is most resistant to reward hacking, followed by GenRM with ground truth,
and then GenRM with SFT Best-of-N responses. Our strategies enable rapid
capture of subtle task-specific distinctions, leading to substantial
improvements in overall RLHF performance. This work highlights the importance
of careful data construction and provides practical methods to overcome
performance barriers in RLHF.Summary
AI-Generated Summary