Aprendizaje por Refuerzo Robusto a Recompensas en Modelos de Lenguaje a Gran Escala

Resumen

A medida que los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) siguen avanzando hacia formas más avanzadas de inteligencia, el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) se percibe cada vez más como un camino clave para lograr la Inteligencia Artificial General (AGI). Sin embargo, la dependencia de métodos de alineación basados en modelos de recompensa (RM) introduce desafíos significativos debido a la inestabilidad inherente y las imperfecciones de los Modelos de Recompensa (RMs), que pueden llevar a problemas críticos como la manipulación de recompensas y la falta de alineación con las intenciones humanas. En este documento, presentamos un marco de trabajo de RLHF resistente a recompensas diseñado para abordar estos desafíos fundamentales, allanando el camino para un aprendizaje más confiable y resistente en los LLMs. Nuestro enfoque introduce un objetivo de optimización novedoso que equilibra cuidadosamente el rendimiento y la robustez al incorporar Conjuntos de Modelos de Recompensa Bayesianos (BRME) para modelar el conjunto de incertidumbre de las funciones de recompensa. Esto permite que el marco de trabajo integre tanto el rendimiento nominal como las señales mínimas de recompensa, asegurando un aprendizaje más estable incluso con modelos de recompensa imperfectos. Los resultados empíricos demuestran que nuestro marco de trabajo supera consistentemente al RLHF tradicional en diversos benchmarks, mostrando una precisión mejorada y una estabilidad a largo plazo. También proporcionamos un análisis teórico, demostrando que el enfoque de RLHF resistente a recompensas se acerca a la estabilidad de configuraciones de recompensa constante, lo cual resulta efectivo en un análisis de caso estocástico. En conjunto, estas contribuciones resaltan el potencial del marco de trabajo para mejorar tanto el rendimiento como la estabilidad de la alineación de LLMs con RLHF.

English

As Large Language Models (LLMs) continue to progress toward more advanced forms of intelligence, Reinforcement Learning from Human Feedback (RLHF) is increasingly seen as a key pathway toward achieving Artificial General Intelligence (AGI). However, the reliance on reward-model-based (RM-based) alignment methods introduces significant challenges due to the inherent instability and imperfections of Reward Models (RMs), which can lead to critical issues such as reward hacking and misalignment with human intentions. In this paper, we introduce a reward-robust RLHF framework aimed at addressing these fundamental challenges, paving the way for more reliable and resilient learning in LLMs. Our approach introduces a novel optimization objective that carefully balances performance and robustness by incorporating Bayesian Reward Model Ensembles (BRME) to model the uncertainty set of reward functions. This allows the framework to integrate both nominal performance and minimum reward signals, ensuring more stable learning even with imperfect reward models. Empirical results demonstrate that our framework consistently outperforms traditional RLHF across diverse benchmarks, showing improved accuracy and long-term stability. We also provide a theoretical analysis, demonstrating that reward-robust RLHF approaches the stability of constant reward settings, which proves to be effective in a stochastic-case analysis. Together, these contributions highlight the framework potential to enhance both the performance and stability of LLM alignment with RLHF.

Aprendizaje por Refuerzo Robusto a Recompensas en Modelos de Lenguaje a Gran Escala

Reward-Robust RLHF in LLMs

Resumen

Support