Apprentissage par Renforcement Robuste aux Récompenses dans les Modèles de Langage à Grande Échelle
Reward-Robust RLHF in LLMs
September 18, 2024
Auteurs: Yuzi Yan, Xingzhou Lou, Jialian Li, Yiping Zhang, Jian Xie, Chao Yu, Yu Wang, Dong Yan, Yuan Shen
cs.AI
Résumé
Alors que les Modèles de Langage de Grande Taille (LLMs) continuent de progresser vers des formes plus avancées d'intelligence, l'Apprentissage par Renforcement à partir des Retours Humains (RLHF) est de plus en plus considéré comme une voie clé pour atteindre l'Intelligence Artificielle Générale (AGI). Cependant, la dépendance aux méthodes d'alignement basées sur les modèles de récompense (RM) introduit des défis significatifs en raison de l'instabilité inhérente et des imperfections des Modèles de Récompense (RMs), pouvant entraîner des problèmes critiques tels que le piratage de récompenses et la désalignement avec les intentions humaines. Dans cet article, nous présentons un cadre RLHF robuste aux récompenses visant à relever ces défis fondamentaux, ouvrant la voie à un apprentissage plus fiable et résilient dans les LLMs. Notre approche introduit un objectif d'optimisation novateur qui équilibre soigneusement la performance et la robustesse en incorporant des Ensembles de Modèles de Récompense Bayésiens (BRME) pour modéliser l'ensemble d'incertitude des fonctions de récompense. Cela permet au cadre d'intégrer à la fois la performance nominale et les signaux de récompense minimum, garantissant un apprentissage plus stable même avec des modèles de récompense imparfaits. Les résultats empiriques montrent que notre cadre surpasse de manière constante le RLHF traditionnel à travers divers benchmarks, démontrant une précision améliorée et une stabilité à long terme. Nous fournissons également une analyse théorique, démontrant que l'approche RLHF robuste aux récompenses se rapproche de la stabilité des paramètres de récompense constants, ce qui s'avère efficace dans une analyse de cas stochastique. Ensemble, ces contributions mettent en lumière le potentiel du cadre à améliorer à la fois la performance et la stabilité de l'alignement des LLMs avec le RLHF.
English
As Large Language Models (LLMs) continue to progress toward more advanced
forms of intelligence, Reinforcement Learning from Human Feedback (RLHF) is
increasingly seen as a key pathway toward achieving Artificial General
Intelligence (AGI). However, the reliance on reward-model-based (RM-based)
alignment methods introduces significant challenges due to the inherent
instability and imperfections of Reward Models (RMs), which can lead to
critical issues such as reward hacking and misalignment with human intentions.
In this paper, we introduce a reward-robust RLHF framework aimed at addressing
these fundamental challenges, paving the way for more reliable and resilient
learning in LLMs. Our approach introduces a novel optimization objective that
carefully balances performance and robustness by incorporating Bayesian Reward
Model Ensembles (BRME) to model the uncertainty set of reward functions. This
allows the framework to integrate both nominal performance and minimum reward
signals, ensuring more stable learning even with imperfect reward models.
Empirical results demonstrate that our framework consistently outperforms
traditional RLHF across diverse benchmarks, showing improved accuracy and
long-term stability. We also provide a theoretical analysis, demonstrating that
reward-robust RLHF approaches the stability of constant reward settings, which
proves to be effective in a stochastic-case analysis. Together, these
contributions highlight the framework potential to enhance both the performance
and stability of LLM alignment with RLHF.Summary
AI-Generated Summary