Les modèles de langage apprennent à induire les humains en erreur via RLHF

papers.abstract

Les modèles de langage (LM) peuvent produire des erreurs difficiles à détecter pour les humains, surtout lorsque la tâche est complexe. RLHF, la méthode post-entraînement la plus populaire, pourrait aggraver ce problème : pour obtenir des récompenses plus élevées, les LM pourraient devenir plus convaincants pour les humains qu'ils ont raison même lorsqu'ils ont tort. Nous étudions ce phénomène dans le cadre d'un pipeline RLHF standard, que nous appelons "U-SOPHISTRY" car il est non intentionnel de la part des développeurs de modèles. Plus précisément, nous demandons à des sujets humains contraints par le temps (par exemple, 3 à 10 minutes) d'évaluer la justesse des sorties du modèle et de calculer la précision des humains par rapport aux étiquettes de référence. Sur une tâche de question-réponse (QuALITY) et une tâche de programmation (APPS), RLHF rend les LM plus convaincants pour nos sujets mais ne les aide pas à accomplir correctement la tâche. RLHF rend également le modèle plus difficile à évaluer : le taux de faux positifs de nos sujets augmente de 24,1 % sur QuALITY et de 18,3 % sur APPS. Enfin, nous montrons que le sondage, une approche de pointe pour détecter la Sophistry Intentionnelle (par exemple, les LM piégés), ne se généralise pas à l'U-SOPHISTRY. Nos résultats mettent en lumière un mode d'échec important de RLHF et appellent à davantage de recherches pour aider les humains à s'aligner sur eux.

English

Language models (LMs) can produce errors that are hard to detect for humans, especially when the task is complex. RLHF, the most popular post-training method, may exacerbate this problem: to achieve higher rewards, LMs might get better at convincing humans that they are right even when they are wrong. We study this phenomenon under a standard RLHF pipeline, calling it "U-SOPHISTRY" since it is Unintended by model developers. Specifically, we ask time-constrained (e.g., 3-10 minutes) human subjects to evaluate the correctness of model outputs and calculate humans' accuracy against gold labels. On a question-answering task (QuALITY) and programming task (APPS), RLHF makes LMs better at convincing our subjects but not at completing the task correctly. RLHF also makes the model harder to evaluate: our subjects' false positive rate increases by 24.1% on QuALITY and 18.3% on APPS. Finally, we show that probing, a state-of-the-art approach for detecting Intended Sophistry (e.g. backdoored LMs), does not generalize to U-SOPHISTRY. Our results highlight an important failure mode of RLHF and call for more research in assisting humans to align them.

Les modèles de langage apprennent à induire les humains en erreur via RLHF

Language Models Learn to Mislead Humans via RLHF

papers.abstract

Support