Reforço-robusto para Aprendizado por Reforço com Função de Valor Hierárquica em Modelos de Linguagem de Longo Alcance
Reward-Robust RLHF in LLMs
September 18, 2024
Autores: Yuzi Yan, Xingzhou Lou, Jialian Li, Yiping Zhang, Jian Xie, Chao Yu, Yu Wang, Dong Yan, Yuan Shen
cs.AI
Resumo
À medida que os Modelos de Linguagem de Grande Escala (LLMs) continuam a progredir em direção a formas mais avançadas de inteligência, o Aprendizado por Reforço a partir do Feedback Humano (RLHF) é cada vez mais visto como um caminho-chave para alcançar a Inteligência Artificial Geral (AGI). No entanto, a dependência de métodos de alinhamento baseados em modelos de recompensa (RM) introduz desafios significativos devido à instabilidade inerente e imperfeições dos Modelos de Recompensa (RMs), que podem levar a questões críticas como manipulação de recompensas e desalinhamento com as intenções humanas. Neste artigo, apresentamos um framework de RLHF robusto em recompensas destinado a abordar esses desafios fundamentais, abrindo caminho para uma aprendizagem mais confiável e resiliente em LLMs. Nossa abordagem introduz um objetivo de otimização inovador que equilibra cuidadosamente desempenho e robustez ao incorporar Conjuntos de Modelos de Recompensa Bayesianos (BRME) para modelar o conjunto de incerteza das funções de recompensa. Isso permite que o framework integre tanto o desempenho nominal quanto os sinais mínimos de recompensa, garantindo uma aprendizagem mais estável mesmo com modelos de recompensa imperfeitos. Resultados empíricos demonstram que nosso framework supera consistentemente o RLHF tradicional em diversos benchmarks, mostrando maior precisão e estabilidade a longo prazo. Também fornecemos uma análise teórica, demonstrando que abordagens de RLHF robustas em recompensas se aproximam da estabilidade de configurações de recompensa constante, o que se mostra eficaz em uma análise de caso estocástico. Em conjunto, essas contribuições destacam o potencial do framework para aprimorar tanto o desempenho quanto a estabilidade do alinhamento de LLMs com RLHF.
English
As Large Language Models (LLMs) continue to progress toward more advanced
forms of intelligence, Reinforcement Learning from Human Feedback (RLHF) is
increasingly seen as a key pathway toward achieving Artificial General
Intelligence (AGI). However, the reliance on reward-model-based (RM-based)
alignment methods introduces significant challenges due to the inherent
instability and imperfections of Reward Models (RMs), which can lead to
critical issues such as reward hacking and misalignment with human intentions.
In this paper, we introduce a reward-robust RLHF framework aimed at addressing
these fundamental challenges, paving the way for more reliable and resilient
learning in LLMs. Our approach introduces a novel optimization objective that
carefully balances performance and robustness by incorporating Bayesian Reward
Model Ensembles (BRME) to model the uncertainty set of reward functions. This
allows the framework to integrate both nominal performance and minimum reward
signals, ensuring more stable learning even with imperfect reward models.
Empirical results demonstrate that our framework consistently outperforms
traditional RLHF across diverse benchmarks, showing improved accuracy and
long-term stability. We also provide a theoretical analysis, demonstrating that
reward-robust RLHF approaches the stability of constant reward settings, which
proves to be effective in a stochastic-case analysis. Together, these
contributions highlight the framework potential to enhance both the performance
and stability of LLM alignment with RLHF.