ChatPaper.aiChatPaper

Belohnungsrobustes RLHF in LLMs

Reward-Robust RLHF in LLMs

September 18, 2024
Autoren: Yuzi Yan, Xingzhou Lou, Jialian Li, Yiping Zhang, Jian Xie, Chao Yu, Yu Wang, Dong Yan, Yuan Shen
cs.AI

Zusammenfassung

Mit dem Fortschreiten von Large Language Models (LLMs) hin zu fortschrittlicheren Formen der Intelligenz wird das Reinforcement Learning from Human Feedback (RLHF) zunehmend als ein Schlüsselweg zur Erreichung Künstlicher Allgemeiner Intelligenz (AGI) angesehen. Die Abhängigkeit von belohnungsmodellbasierten (RM-basierten) Ausrichtungsmethoden führt jedoch zu erheblichen Herausforderungen aufgrund der inhärenten Instabilität und Unvollkommenheiten von Reward Models (RMs), die zu kritischen Problemen wie Belohnungsumgehung und Missabstimmung mit menschlichen Absichten führen können. In diesem Papier stellen wir ein belohnungsrobustes RLHF-Framework vor, das darauf abzielt, diese grundlegenden Herausforderungen anzugehen und den Weg für zuverlässigeres und widerstandsfähigeres Lernen in LLMs zu ebnen. Unser Ansatz führt ein neuartiges Optimierungsziel ein, das die Leistung und Robustheit sorgfältig ausbalanciert, indem Bayesian Reward Model Ensembles (BRME) zur Modellierung des Unsicherheitsbereichs von Belohnungsfunktionen einbezogen werden. Dies ermöglicht es dem Framework, sowohl nominale Leistung als auch minimale Belohnungssignale zu integrieren, um ein stabileres Lernen auch bei unvollkommenen Belohnungsmodellen zu gewährleisten. Empirische Ergebnisse zeigen, dass unser Framework konsistent bessere Leistungen als herkömmliches RLHF bei verschiedenen Benchmarks erzielt, was sich in verbesserter Genauigkeit und langfristiger Stabilität zeigt. Wir bieten auch eine theoretische Analyse, die zeigt, dass belohnungsrobuste RLHF-Ansätze sich der Stabilität von konstanten Belohnungseinstellungen annähern, was sich als wirksam in einer stochastischen Fallanalyse erweist. Zusammenfassend verdeutlichen diese Beiträge das Potenzial des Frameworks, sowohl die Leistung als auch die Stabilität der LLM-Ausrichtung mit RLHF zu verbessern.
English
As Large Language Models (LLMs) continue to progress toward more advanced forms of intelligence, Reinforcement Learning from Human Feedback (RLHF) is increasingly seen as a key pathway toward achieving Artificial General Intelligence (AGI). However, the reliance on reward-model-based (RM-based) alignment methods introduces significant challenges due to the inherent instability and imperfections of Reward Models (RMs), which can lead to critical issues such as reward hacking and misalignment with human intentions. In this paper, we introduce a reward-robust RLHF framework aimed at addressing these fundamental challenges, paving the way for more reliable and resilient learning in LLMs. Our approach introduces a novel optimization objective that carefully balances performance and robustness by incorporating Bayesian Reward Model Ensembles (BRME) to model the uncertainty set of reward functions. This allows the framework to integrate both nominal performance and minimum reward signals, ensuring more stable learning even with imperfect reward models. Empirical results demonstrate that our framework consistently outperforms traditional RLHF across diverse benchmarks, showing improved accuracy and long-term stability. We also provide a theoretical analysis, demonstrating that reward-robust RLHF approaches the stability of constant reward settings, which proves to be effective in a stochastic-case analysis. Together, these contributions highlight the framework potential to enhance both the performance and stability of LLM alignment with RLHF.

Summary

AI-Generated Summary

PDF62November 16, 2024