Aprendizaje por Refuerzo Robusto a Recompensas en Modelos de Lenguaje a Gran Escala
Reward-Robust RLHF in LLMs
September 18, 2024
Autores: Yuzi Yan, Xingzhou Lou, Jialian Li, Yiping Zhang, Jian Xie, Chao Yu, Yu Wang, Dong Yan, Yuan Shen
cs.AI
Resumen
A medida que los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) siguen avanzando hacia formas más avanzadas de inteligencia, el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) se percibe cada vez más como un camino clave para lograr la Inteligencia Artificial General (AGI). Sin embargo, la dependencia de métodos de alineación basados en modelos de recompensa (RM) introduce desafíos significativos debido a la inestabilidad inherente y las imperfecciones de los Modelos de Recompensa (RMs), que pueden llevar a problemas críticos como la manipulación de recompensas y la falta de alineación con las intenciones humanas. En este documento, presentamos un marco de trabajo de RLHF resistente a recompensas diseñado para abordar estos desafíos fundamentales, allanando el camino para un aprendizaje más confiable y resistente en los LLMs. Nuestro enfoque introduce un objetivo de optimización novedoso que equilibra cuidadosamente el rendimiento y la robustez al incorporar Conjuntos de Modelos de Recompensa Bayesianos (BRME) para modelar el conjunto de incertidumbre de las funciones de recompensa. Esto permite que el marco de trabajo integre tanto el rendimiento nominal como las señales mínimas de recompensa, asegurando un aprendizaje más estable incluso con modelos de recompensa imperfectos. Los resultados empíricos demuestran que nuestro marco de trabajo supera consistentemente al RLHF tradicional en diversos benchmarks, mostrando una precisión mejorada y una estabilidad a largo plazo. También proporcionamos un análisis teórico, demostrando que el enfoque de RLHF resistente a recompensas se acerca a la estabilidad de configuraciones de recompensa constante, lo cual resulta efectivo en un análisis de caso estocástico. En conjunto, estas contribuciones resaltan el potencial del marco de trabajo para mejorar tanto el rendimiento como la estabilidad de la alineación de LLMs con RLHF.
English
As Large Language Models (LLMs) continue to progress toward more advanced
forms of intelligence, Reinforcement Learning from Human Feedback (RLHF) is
increasingly seen as a key pathway toward achieving Artificial General
Intelligence (AGI). However, the reliance on reward-model-based (RM-based)
alignment methods introduces significant challenges due to the inherent
instability and imperfections of Reward Models (RMs), which can lead to
critical issues such as reward hacking and misalignment with human intentions.
In this paper, we introduce a reward-robust RLHF framework aimed at addressing
these fundamental challenges, paving the way for more reliable and resilient
learning in LLMs. Our approach introduces a novel optimization objective that
carefully balances performance and robustness by incorporating Bayesian Reward
Model Ensembles (BRME) to model the uncertainty set of reward functions. This
allows the framework to integrate both nominal performance and minimum reward
signals, ensuring more stable learning even with imperfect reward models.
Empirical results demonstrate that our framework consistently outperforms
traditional RLHF across diverse benchmarks, showing improved accuracy and
long-term stability. We also provide a theoretical analysis, demonstrating that
reward-robust RLHF approaches the stability of constant reward settings, which
proves to be effective in a stochastic-case analysis. Together, these
contributions highlight the framework potential to enhance both the performance
and stability of LLM alignment with RLHF.Summary
AI-Generated Summary