ChatPaper.aiChatPaper

RLHS : Atténuation des désalignements dans RLHF avec la simulation rétrospective

RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation

January 15, 2025
Auteurs: Kaiqu Liang, Haimin Hu, Ryan Liu, Thomas L. Griffiths, Jaime Fernández Fisac
cs.AI

Résumé

Les systèmes d'IA générative tels que les modèles fondamentaux (FMs) doivent bien s'aligner avec les valeurs humaines pour garantir que leur comportement soit utile et digne de confiance. Bien que l'Apprentissage par Renforcement à partir des Retours Humains (RLHF) ait montré des promesses pour optimiser les performances des modèles en utilisant les jugements humains, les pipelines RLHF existants reposent principalement sur des retours immédiats, qui peuvent échouer à refléter avec précision l'impact en aval d'une interaction sur l'utilité des utilisateurs. Nous démontrons que les retours basés sur les estimations de prévoyance des évaluateurs concernant les conséquences en aval induisent systématiquement des dynamiques de la Loi de Goodhart, incitant à des comportements désalignés tels que la flagornerie et la tromperie et dégradant finalement les résultats des utilisateurs. Pour remédier à cela, nous proposons de désolidariser l'évaluation de la prédiction en recentrant le RLHF sur les retours en hindsight. Notre analyse théorique révèle que conditionner les retours des évaluateurs sur les observations en aval atténue le désalignement et améliore l'utilité humaine attendue, même lorsque ces observations sont simulées par le système d'IA lui-même. Pour exploiter cette insight dans un algorithme d'alignement pratique, nous introduisons l'Apprentissage par Renforcement à partir de la Simulation en Hindsight (RLHS), qui simule d'abord des conséquences plausibles puis sollicite des retours pour évaluer quels comportements étaient réellement bénéfiques avec le recul. Nous appliquons le RLHS à deux méthodes d'optimisation de préférences largement utilisées en ligne et hors ligne - l'Optimisation de Politique Proximale (PPO) et l'Optimisation de Préférence Directe (DPO) - et montrons empiriquement que le désalignement est significativement réduit avec les deux méthodes. À travers une étude utilisateur humaine en ligne, nous montrons que le RLHS surpasse de manière constante le RLHF en aidant les utilisateurs à atteindre leurs objectifs et obtient des notes de satisfaction plus élevées, malgré le fait d'être entraîné uniquement avec des retours simulés en hindsight. Ces résultats soulignent l'importance de se concentrer sur les conséquences à long terme, même simulées, pour atténuer le désalignement dans le RLHF.
English
Generative AI systems like foundation models (FMs) must align well with human values to ensure their behavior is helpful and trustworthy. While Reinforcement Learning from Human Feedback (RLHF) has shown promise for optimizing model performance using human judgments, existing RLHF pipelines predominantly rely on immediate feedback, which can fail to accurately reflect the downstream impact of an interaction on users' utility. We demonstrate that feedback based on evaluators' foresight estimates of downstream consequences systematically induces Goodhart's Law dynamics, incentivizing misaligned behaviors like sycophancy and deception and ultimately degrading user outcomes. To alleviate this, we propose decoupling evaluation from prediction by refocusing RLHF on hindsight feedback. Our theoretical analysis reveals that conditioning evaluator feedback on downstream observations mitigates misalignment and improves expected human utility, even when these observations are simulated by the AI system itself. To leverage this insight in a practical alignment algorithm, we introduce Reinforcement Learning from Hindsight Simulation (RLHS), which first simulates plausible consequences and then elicits feedback to assess what behaviors were genuinely beneficial in hindsight. We apply RLHS to two widely-employed online and offline preference optimization methods -- Proximal Policy Optimization (PPO) and Direct Preference Optimization (DPO) -- and show empirically that misalignment is significantly reduced with both methods. Through an online human user study, we show that RLHS consistently outperforms RLHF in helping users achieve their goals and earns higher satisfaction ratings, despite being trained solely with simulated hindsight feedback. These results underscore the importance of focusing on long-term consequences, even simulated ones, to mitigate misalignment in RLHF.

Summary

AI-Generated Summary

PDF102January 17, 2025