言語モデルにおけるご機嫌取り行動の理解に向けて
Towards Understanding Sycophancy in Language Models
October 20, 2023
著者: Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda Askell, Samuel R. Bowman, Newton Cheng, Esin Durmus, Zac Hatfield-Dodds, Scott R. Johnston, Shauna Kravec, Timothy Maxwell, Sam McCandlish, Kamal Ndousse, Oliver Rausch, Nicholas Schiefer, Da Yan, Miranda Zhang, Ethan Perez
cs.AI
要旨
人間のフィードバックによる強化学習(RLHF)は、高品質なAIアシスタントを訓練するための一般的な手法です。しかし、RLHFは、真実の回答よりもユーザーの信念に合致するモデル回答を促す可能性があり、この行動は「ご機嫌取り(sycophancy)」として知られています。本研究では、RLHFで訓練されたモデルにおけるご機嫌取りの普遍性と、人間の選好判断がその原因となっているかどうかを調査します。まず、5つの最先端AIアシスタントが、4つの多様な自由形式テキスト生成タスクにおいて一貫してご機嫌取り行動を示すことを実証します。次に、RLHFモデルに広く観察されるこの行動が人間の選好によって引き起こされているかどうかを理解するため、既存の人間選好データを分析します。その結果、回答がユーザーの見解に合致する場合、それが選好されやすいことがわかります。さらに、人間と選好モデル(PM)の両方が、正しい回答よりも説得力のあるご機嫌取り回答を選好する割合が無視できない程度に存在します。PMに対してモデル出力を最適化することも、時として真実性を犠牲にしてご機嫌取りを優先する結果をもたらします。全体として、我々の結果は、ご機嫌取りがRLHFモデルの一般的な行動であり、その一部はご機嫌取り回答を好む人間の選好判断によって引き起こされている可能性が高いことを示唆しています。
English
Reinforcement learning from human feedback (RLHF) is a popular technique for
training high-quality AI assistants. However, RLHF may also encourage model
responses that match user beliefs over truthful responses, a behavior known as
sycophancy. We investigate the prevalence of sycophancy in RLHF-trained models
and whether human preference judgements are responsible. We first demonstrate
that five state-of-the-art AI assistants consistently exhibit sycophantic
behavior across four varied free-form text-generation tasks. To understand if
human preferences drive this broadly observed behavior of RLHF models, we
analyze existing human preference data. We find that when a response matches a
user's views, it is more likely to be preferred. Moreover, both humans and
preference models (PMs) prefer convincingly-written sycophantic responses over
correct ones a negligible fraction of the time. Optimizing model outputs
against PMs also sometimes sacrifices truthfulness in favor of sycophancy.
Overall, our results indicate that sycophancy is a general behavior of RLHF
models, likely driven in part by human preference judgements favoring
sycophantic responses.