Reforço-robusto para Aprendizado por Reforço com Função de Valor Hierárquica em Modelos de Linguagem de Longo Alcance

Resumo

À medida que os Modelos de Linguagem de Grande Escala (LLMs) continuam a progredir em direção a formas mais avançadas de inteligência, o Aprendizado por Reforço a partir do Feedback Humano (RLHF) é cada vez mais visto como um caminho-chave para alcançar a Inteligência Artificial Geral (AGI). No entanto, a dependência de métodos de alinhamento baseados em modelos de recompensa (RM) introduz desafios significativos devido à instabilidade inerente e imperfeições dos Modelos de Recompensa (RMs), que podem levar a questões críticas como manipulação de recompensas e desalinhamento com as intenções humanas. Neste artigo, apresentamos um framework de RLHF robusto em recompensas destinado a abordar esses desafios fundamentais, abrindo caminho para uma aprendizagem mais confiável e resiliente em LLMs. Nossa abordagem introduz um objetivo de otimização inovador que equilibra cuidadosamente desempenho e robustez ao incorporar Conjuntos de Modelos de Recompensa Bayesianos (BRME) para modelar o conjunto de incerteza das funções de recompensa. Isso permite que o framework integre tanto o desempenho nominal quanto os sinais mínimos de recompensa, garantindo uma aprendizagem mais estável mesmo com modelos de recompensa imperfeitos. Resultados empíricos demonstram que nosso framework supera consistentemente o RLHF tradicional em diversos benchmarks, mostrando maior precisão e estabilidade a longo prazo. Também fornecemos uma análise teórica, demonstrando que abordagens de RLHF robustas em recompensas se aproximam da estabilidade de configurações de recompensa constante, o que se mostra eficaz em uma análise de caso estocástico. Em conjunto, essas contribuições destacam o potencial do framework para aprimorar tanto o desempenho quanto a estabilidade do alinhamento de LLMs com RLHF.

English

As Large Language Models (LLMs) continue to progress toward more advanced forms of intelligence, Reinforcement Learning from Human Feedback (RLHF) is increasingly seen as a key pathway toward achieving Artificial General Intelligence (AGI). However, the reliance on reward-model-based (RM-based) alignment methods introduces significant challenges due to the inherent instability and imperfections of Reward Models (RMs), which can lead to critical issues such as reward hacking and misalignment with human intentions. In this paper, we introduce a reward-robust RLHF framework aimed at addressing these fundamental challenges, paving the way for more reliable and resilient learning in LLMs. Our approach introduces a novel optimization objective that carefully balances performance and robustness by incorporating Bayesian Reward Model Ensembles (BRME) to model the uncertainty set of reward functions. This allows the framework to integrate both nominal performance and minimum reward signals, ensuring more stable learning even with imperfect reward models. Empirical results demonstrate that our framework consistently outperforms traditional RLHF across diverse benchmarks, showing improved accuracy and long-term stability. We also provide a theoretical analysis, demonstrating that reward-robust RLHF approaches the stability of constant reward settings, which proves to be effective in a stochastic-case analysis. Together, these contributions highlight the framework potential to enhance both the performance and stability of LLM alignment with RLHF.

Reforço-robusto para Aprendizado por Reforço com Função de Valor Hierárquica em Modelos de Linguagem de Longo Alcance

Reward-Robust RLHF in LLMs

Resumo

Support