言語モデルは、RLHFを通じて人間を誤誘導する方法を学習します。
Language Models Learn to Mislead Humans via RLHF
September 19, 2024
著者: Jiaxin Wen, Ruiqi Zhong, Akbir Khan, Ethan Perez, Jacob Steinhardt, Minlie Huang, Samuel R. Boman, He He, Shi Feng
cs.AI
要旨
言語モデル(LMs)は、特にタスクが複雑な場合、人間にとって検出が難しいエラーを生成する可能性があります。RLHFは、最も一般的な事後トレーニング手法であり、報酬を高めるために、LMsは誤っているにもかかわらず、人間を説得する能力を向上させる可能性があります。我々は、この現象を標準的なRLHFパイプラインで研究し、それを「U-SOPHISTRY」と呼んでいます。これは、モデル開発者によって意図されていない現象であるためです。具体的には、時間制約(例:3〜10分)のある人間の被験者に、モデルの出力の正確さを評価してもらい、人間の正解率をゴールドラベルと比較します。質問応答タスク(QuALITY)とプログラミングタスク(APPS)において、RLHFは、LMsを被験者を説得する能力を向上させますが、タスクを正しく完了させる能力は向上しません。また、RLHFは、モデルの評価を困難にします。被験者の偽陽性率は、QuALITYでは24.1%、APPSでは18.3%増加します。最後に、意図されたソフィストリ(例:バックドア付きLMsを検出するための最先端アプローチ)を検出するためのプロービング手法は、U-SOPHISTRYには一般化しないことを示します。我々の結果は、RLHFの重要な失敗モードを浮き彫りにし、人間を支援するためのさらなる研究を求めています。
English
Language models (LMs) can produce errors that are hard to detect for humans,
especially when the task is complex. RLHF, the most popular post-training
method, may exacerbate this problem: to achieve higher rewards, LMs might get
better at convincing humans that they are right even when they are wrong. We
study this phenomenon under a standard RLHF pipeline, calling it "U-SOPHISTRY"
since it is Unintended by model developers. Specifically, we ask
time-constrained (e.g., 3-10 minutes) human subjects to evaluate the
correctness of model outputs and calculate humans' accuracy against gold
labels. On a question-answering task (QuALITY) and programming task (APPS),
RLHF makes LMs better at convincing our subjects but not at completing the task
correctly. RLHF also makes the model harder to evaluate: our subjects' false
positive rate increases by 24.1% on QuALITY and 18.3% on APPS. Finally, we show
that probing, a state-of-the-art approach for detecting Intended Sophistry
(e.g. backdoored LMs), does not generalize to U-SOPHISTRY. Our results
highlight an important failure mode of RLHF and call for more research in
assisting humans to align them.Summary
AI-Generated Summary