ChatPaper.aiChatPaper

Устойчивость к вознаграждениям RLHF в LLMs

Reward-Robust RLHF in LLMs

September 18, 2024
Авторы: Yuzi Yan, Xingzhou Lou, Jialian Li, Yiping Zhang, Jian Xie, Chao Yu, Yu Wang, Dong Yan, Yuan Shen
cs.AI

Аннотация

По мере того как большие языковые модели (LLM) продолжают двигаться к более продвинутым формам искусственного интеллекта, обучение с подкреплением на основе обратной связи от человека (RLHF) все чаще рассматривается как ключевой путь к достижению искусственного общего интеллекта (AGI). Однако зависимость от методов выравнивания на основе модели вознаграждения (RM-based) вносит значительные вызовы из-за врожденной нестабильности и недостатков моделей вознаграждения (RMs), что может привести к критическим проблемам, таким как взлом вознаграждения и несоответствие человеческим намерениям. В данной статье мы представляем рамочное обучение с подкреплением, устойчивое к вознаграждениям, направленное на решение этих фундаментальных вызовов, что открывает путь к более надежному и устойчивому обучению в LLM. Наш подход вводит новую целевую оптимизацию, которая тщательно балансирует производительность и устойчивость, интегрируя байесовские ансамбли моделей вознаграждения (BRME) для моделирования набора неопределенности функций вознаграждения. Это позволяет рамочной системе интегрировать как номинальную производительность, так и сигналы минимального вознаграждения, обеспечивая более стабильное обучение даже с неполными моделями вознаграждения. Эмпирические результаты показывают, что наша рамочная система последовательно превосходит традиционное обучение с подкреплением на основе обратной связи от человека на различных бенчмарках, демонстрируя улучшенную точность и долгосрочную стабильность. Мы также предоставляем теоретический анализ, демонстрируя, что устойчивое к вознаграждениям обучение с подкреплением приближается к стабильности настройки постоянного вознаграждения, что оказывается эффективным в анализе стохастических случаев. Вместе эти вклады подчеркивают потенциал рамочной системы для улучшения как производительности, так и стабильности выравнивания LLM с обучением с подкреплением на основе обратной связи от человека.
English
As Large Language Models (LLMs) continue to progress toward more advanced forms of intelligence, Reinforcement Learning from Human Feedback (RLHF) is increasingly seen as a key pathway toward achieving Artificial General Intelligence (AGI). However, the reliance on reward-model-based (RM-based) alignment methods introduces significant challenges due to the inherent instability and imperfections of Reward Models (RMs), which can lead to critical issues such as reward hacking and misalignment with human intentions. In this paper, we introduce a reward-robust RLHF framework aimed at addressing these fundamental challenges, paving the way for more reliable and resilient learning in LLMs. Our approach introduces a novel optimization objective that carefully balances performance and robustness by incorporating Bayesian Reward Model Ensembles (BRME) to model the uncertainty set of reward functions. This allows the framework to integrate both nominal performance and minimum reward signals, ensuring more stable learning even with imperfect reward models. Empirical results demonstrate that our framework consistently outperforms traditional RLHF across diverse benchmarks, showing improved accuracy and long-term stability. We also provide a theoretical analysis, demonstrating that reward-robust RLHF approaches the stability of constant reward settings, which proves to be effective in a stochastic-case analysis. Together, these contributions highlight the framework potential to enhance both the performance and stability of LLM alignment with RLHF.

Summary

AI-Generated Summary

PDF62November 16, 2024