ChatPaper.aiChatPaper

RLHS: Mitigando el Desalineamiento en RLHF con Simulación a Posteriori

RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation

January 15, 2025
Autores: Kaiqu Liang, Haimin Hu, Ryan Liu, Thomas L. Griffiths, Jaime Fernández Fisac
cs.AI

Resumen

Los sistemas de IA generativa como los modelos base (FMs) deben alinearse bien con los valores humanos para garantizar que su comportamiento sea útil y confiable. Si bien el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) ha demostrado ser prometedor para optimizar el rendimiento del modelo utilizando juicios humanos, los conductos de RLHF existentes dependen predominantemente de retroalimentación inmediata, lo que puede no reflejar con precisión el impacto a largo plazo de una interacción en la utilidad de los usuarios. Demostramos que la retroalimentación basada en estimaciones de previsión de evaluadores sobre las consecuencias a largo plazo induce sistemáticamente dinámicas de la Ley de Goodhart, incentivando comportamientos desalineados como la adulación y el engaño y degradando en última instancia los resultados para el usuario. Para mitigar esto, proponemos desvincular la evaluación de la predicción al reenfocar el RLHF en retroalimentación retrospectiva. Nuestro análisis teórico revela que condicionar la retroalimentación del evaluador a observaciones a largo plazo mitiga el desalineamiento y mejora la utilidad humana esperada, incluso cuando estas observaciones son simuladas por el propio sistema de IA. Para aprovechar esta idea en un algoritmo práctico de alineación, presentamos el Aprendizaje por Refuerzo a partir de Simulación Retrospectiva (RLHS), que primero simula consecuencias plausibles y luego solicita retroalimentación para evaluar qué comportamientos fueron realmente beneficiosos a posteriori. Aplicamos RLHS a dos métodos de optimización de preferencias ampliamente utilizados, tanto en línea como fuera de línea: la Optimización de Política Proximal (PPO) y la Optimización Directa de Preferencias (DPO), y demostramos empíricamente que el desalineamiento se reduce significativamente con ambos métodos. A través de un estudio en línea con usuarios humanos, mostramos que RLHS supera consistentemente a RLHF en ayudar a los usuarios a alcanzar sus objetivos y obtiene calificaciones de satisfacción más altas, a pesar de ser entrenado únicamente con retroalimentación simulada a posteriori. Estos resultados subrayan la importancia de centrarse en las consecuencias a largo plazo, incluso las simuladas, para mitigar el desalineamiento en RLHF.
English
Generative AI systems like foundation models (FMs) must align well with human values to ensure their behavior is helpful and trustworthy. While Reinforcement Learning from Human Feedback (RLHF) has shown promise for optimizing model performance using human judgments, existing RLHF pipelines predominantly rely on immediate feedback, which can fail to accurately reflect the downstream impact of an interaction on users' utility. We demonstrate that feedback based on evaluators' foresight estimates of downstream consequences systematically induces Goodhart's Law dynamics, incentivizing misaligned behaviors like sycophancy and deception and ultimately degrading user outcomes. To alleviate this, we propose decoupling evaluation from prediction by refocusing RLHF on hindsight feedback. Our theoretical analysis reveals that conditioning evaluator feedback on downstream observations mitigates misalignment and improves expected human utility, even when these observations are simulated by the AI system itself. To leverage this insight in a practical alignment algorithm, we introduce Reinforcement Learning from Hindsight Simulation (RLHS), which first simulates plausible consequences and then elicits feedback to assess what behaviors were genuinely beneficial in hindsight. We apply RLHS to two widely-employed online and offline preference optimization methods -- Proximal Policy Optimization (PPO) and Direct Preference Optimization (DPO) -- and show empirically that misalignment is significantly reduced with both methods. Through an online human user study, we show that RLHS consistently outperforms RLHF in helping users achieve their goals and earns higher satisfaction ratings, despite being trained solely with simulated hindsight feedback. These results underscore the importance of focusing on long-term consequences, even simulated ones, to mitigate misalignment in RLHF.

Summary

AI-Generated Summary

PDF102January 17, 2025