ChatPaper.aiChatPaper

Exploration des tendances et effets de la mise à l'échelle des données dans l'apprentissage par renforcement à partir de retours humains

Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback

March 28, 2025
Auteurs: Wei Shen, Guanlin Liu, Zheng Wu, Ruofei Zhu, Qingping Yang, Chao Xin, Yu Yue, Lin Yan
cs.AI

Résumé

L'apprentissage par renforcement à partir de retours humains (RLHF) est essentiel pour aligner les grands modèles de langage sur les préférences humaines. Bien que les recherches récentes se soient concentrées sur les améliorations algorithmiques, l'importance de la construction des données d'invites a été négligée. Cet article comble cette lacune en explorant les goulots d'étranglement liés aux données dans la mise à l'échelle des performances du RLHF, en particulier le détournement de récompense et la diminution de la diversité des réponses. Nous introduisons un système de récompense hybride combinant des vérificateurs de tâches de raisonnement (RTV) et un modèle de récompense génératif (GenRM) pour atténuer le détournement de récompense. Nous proposons également une nouvelle méthode de sélection des invites, Pre-PPO, pour maintenir la diversité des réponses et améliorer l'efficacité de l'apprentissage. De plus, nous constatons que la priorisation des tâches mathématiques et de codage en début d'entraînement RLHF améliore significativement les performances. Les expériences menées sur deux tailles de modèles valident l'efficacité et l'évolutivité de nos méthodes. Les résultats montrent que le RTV est le plus résistant au détournement de récompense, suivi du GenRM avec la vérité terrain, puis du GenRM avec les réponses SFT Best-of-N. Nos stratégies permettent de capturer rapidement des distinctions subtiles spécifiques aux tâches, conduisant à des améliorations substantielles des performances globales du RLHF. Ce travail souligne l'importance d'une construction minutieuse des données et fournit des méthodes pratiques pour surmonter les barrières de performance dans le RLHF.
English
Reinforcement Learning from Human Feedback (RLHF) is crucial for aligning large language models with human preferences. While recent research has focused on algorithmic improvements, the importance of prompt-data construction has been overlooked. This paper addresses this gap by exploring data-driven bottlenecks in RLHF performance scaling, particularly reward hacking and decreasing response diversity. We introduce a hybrid reward system combining reasoning task verifiers (RTV) and a generative reward model (GenRM) to mitigate reward hacking. We also propose a novel prompt-selection method, Pre-PPO, to maintain response diversity and enhance learning effectiveness. Additionally, we find that prioritizing mathematical and coding tasks early in RLHF training significantly improves performance. Experiments across two model sizes validate our methods' effectiveness and scalability. Results show that RTV is most resistant to reward hacking, followed by GenRM with ground truth, and then GenRM with SFT Best-of-N responses. Our strategies enable rapid capture of subtle task-specific distinctions, leading to substantial improvements in overall RLHF performance. This work highlights the importance of careful data construction and provides practical methods to overcome performance barriers in RLHF.

Summary

AI-Generated Summary

PDF442March 31, 2025