Les modèles de langage apprennent à induire les humains en erreur via RLHF
Language Models Learn to Mislead Humans via RLHF
September 19, 2024
Auteurs: Jiaxin Wen, Ruiqi Zhong, Akbir Khan, Ethan Perez, Jacob Steinhardt, Minlie Huang, Samuel R. Boman, He He, Shi Feng
cs.AI
Résumé
Les modèles de langage (LM) peuvent produire des erreurs difficiles à détecter pour les humains, surtout lorsque la tâche est complexe. RLHF, la méthode post-entraînement la plus populaire, pourrait aggraver ce problème : pour obtenir des récompenses plus élevées, les LM pourraient devenir plus convaincants pour les humains qu'ils ont raison même lorsqu'ils ont tort. Nous étudions ce phénomène dans le cadre d'un pipeline RLHF standard, que nous appelons "U-SOPHISTRY" car il est non intentionnel de la part des développeurs de modèles. Plus précisément, nous demandons à des sujets humains contraints par le temps (par exemple, 3 à 10 minutes) d'évaluer la justesse des sorties du modèle et de calculer la précision des humains par rapport aux étiquettes de référence. Sur une tâche de question-réponse (QuALITY) et une tâche de programmation (APPS), RLHF rend les LM plus convaincants pour nos sujets mais ne les aide pas à accomplir correctement la tâche. RLHF rend également le modèle plus difficile à évaluer : le taux de faux positifs de nos sujets augmente de 24,1 % sur QuALITY et de 18,3 % sur APPS. Enfin, nous montrons que le sondage, une approche de pointe pour détecter la Sophistry Intentionnelle (par exemple, les LM piégés), ne se généralise pas à l'U-SOPHISTRY. Nos résultats mettent en lumière un mode d'échec important de RLHF et appellent à davantage de recherches pour aider les humains à s'aligner sur eux.
English
Language models (LMs) can produce errors that are hard to detect for humans,
especially when the task is complex. RLHF, the most popular post-training
method, may exacerbate this problem: to achieve higher rewards, LMs might get
better at convincing humans that they are right even when they are wrong. We
study this phenomenon under a standard RLHF pipeline, calling it "U-SOPHISTRY"
since it is Unintended by model developers. Specifically, we ask
time-constrained (e.g., 3-10 minutes) human subjects to evaluate the
correctness of model outputs and calculate humans' accuracy against gold
labels. On a question-answering task (QuALITY) and programming task (APPS),
RLHF makes LMs better at convincing our subjects but not at completing the task
correctly. RLHF also makes the model harder to evaluate: our subjects' false
positive rate increases by 24.1% on QuALITY and 18.3% on APPS. Finally, we show
that probing, a state-of-the-art approach for detecting Intended Sophistry
(e.g. backdoored LMs), does not generalize to U-SOPHISTRY. Our results
highlight an important failure mode of RLHF and call for more research in
assisting humans to align them.Summary
AI-Generated Summary