Apprendimento Rinforzato Robusto alle Ricompense in Modelli Linguistici a Lungo Termine
Reward-Robust RLHF in LLMs
September 18, 2024
Autori: Yuzi Yan, Xingzhou Lou, Jialian Li, Yiping Zhang, Jian Xie, Chao Yu, Yu Wang, Dong Yan, Yuan Shen
cs.AI
Abstract
Man mano che i Large Language Models (LLM) continuano a progredire verso forme più avanzate di intelligenza, il Reinforcement Learning from Human Feedback (RLHF) è sempre più considerato come un percorso chiave per raggiungere l'Intelligenza Artificiale Generale (AGI). Tuttavia, il ricorso ai metodi di allineamento basati su modelli di ricompensa (RM-based) introduce significativi ostacoli a causa dell'instabilità e delle imperfezioni intrinseche dei Reward Models (RMs), che possono portare a problemi critici come il reward hacking e la mancata corrispondenza con le intenzioni umane. In questo articolo, presentiamo un framework RLHF robusto alle ricompense mirato ad affrontare queste sfide fondamentali, aprendo la strada a un apprendimento più affidabile e resistente nei LLM. Il nostro approccio introduce un nuovo obiettivo di ottimizzazione che bilancia attentamente le prestazioni e la robustezza incorporando Bayesian Reward Model Ensembles (BRME) per modellare l'insieme di incertezza delle funzioni di ricompensa. Ciò consente al framework di integrare sia le prestazioni nominali che i segnali minimi di ricompensa, garantendo un apprendimento più stabile anche con modelli di ricompensa imperfetti. I risultati empirici dimostrano che il nostro framework supera costantemente il RLHF tradizionale su diversi benchmark, mostrando un'accuratezza migliorata e una stabilità a lungo termine. Forniamo anche un'analisi teorica, dimostrando che l'approccio reward-robust RLHF si avvicina alla stabilità delle impostazioni di ricompensa costante, dimostrandosi efficace in un'analisi dei casi stocastici. Insieme, questi contributi evidenziano il potenziale del framework nel migliorare sia le prestazioni che la stabilità dell'allineamento dei LLM con il RLHF.
English
As Large Language Models (LLMs) continue to progress toward more advanced
forms of intelligence, Reinforcement Learning from Human Feedback (RLHF) is
increasingly seen as a key pathway toward achieving Artificial General
Intelligence (AGI). However, the reliance on reward-model-based (RM-based)
alignment methods introduces significant challenges due to the inherent
instability and imperfections of Reward Models (RMs), which can lead to
critical issues such as reward hacking and misalignment with human intentions.
In this paper, we introduce a reward-robust RLHF framework aimed at addressing
these fundamental challenges, paving the way for more reliable and resilient
learning in LLMs. Our approach introduces a novel optimization objective that
carefully balances performance and robustness by incorporating Bayesian Reward
Model Ensembles (BRME) to model the uncertainty set of reward functions. This
allows the framework to integrate both nominal performance and minimum reward
signals, ensuring more stable learning even with imperfect reward models.
Empirical results demonstrate that our framework consistently outperforms
traditional RLHF across diverse benchmarks, showing improved accuracy and
long-term stability. We also provide a theoretical analysis, demonstrating that
reward-robust RLHF approaches the stability of constant reward settings, which
proves to be effective in a stochastic-case analysis. Together, these
contributions highlight the framework potential to enhance both the performance
and stability of LLM alignment with RLHF.Summary
AI-Generated Summary