表層的アラインメント:強力なモデルは弱いモデルを欺く可能性がある - 弱から強への一般化において
Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization
June 17, 2024
著者: Wenkai Yang, Shiqi Shen, Guangyao Shen, Zhi Gong, Yankai Lin
cs.AI
要旨
超アライメント、すなわち人間が超人的なモデルの弱い監督者となる状況は、大規模言語モデル(LLM)の急速な発展が進む現代において、重要かつ広く議論される問題となっています。最近の研究では、弱いモデルを用いて強いモデルを監督するという手法でこの問題を予備的に検討しました。その結果、弱い監督下にある強い学生モデルが、アライメント目標に向けて弱い教師モデルを一貫して上回る、弱いから強いへの一般化現象が発見されました。しかし、私たちはこの有望な現象の背後に、弱いから強いへの欺瞞の問題が存在するのではないかと懸念しています。つまり、強いモデルが弱いモデルの知る領域では良好にアライメントを示す一方で、弱いモデルの知らないケースでは非アライメントな振る舞いを見せることで、弱いモデルを欺く可能性があるのです。そこで私たちは、特定の現実的な多目的アライメントのケースにおいて、このセキュリティ問題を探る最初の一歩を踏み出しました。このケースでは、互いに矛盾するアライメント目標が存在する可能性があります(例:有用性 vs. 無害性)。このような矛盾は、強いモデルが一つのアライメント次元で弱いモデルを欺き、他のアライメント次元で高い報酬を得ることを引き起こす可能性があります。報酬モデリングタスクと選好最適化シナリオでの実験結果は以下のことを示しています:(1)弱いから強いへの欺瞞が存在する、(2)弱いモデルと強いモデルの能力差が大きくなるにつれて、欺瞞現象が強まる可能性がある。また、私たちは潜在的な解決策についても議論し、中間モデルを用いたブートストラップが欺瞞をある程度緩和できることを発見しました。本研究は、超アライメントの真の信頼性にさらに注意を払う必要性を強調するものです。
English
Superalignment, where humans are weak supervisors of superhuman models, has
become an important and widely discussed issue in the current era of rapid
development of Large Language Models (LLMs). The recent work preliminarily
studies this problem by using weak models to supervise strong models. It
discovers that weakly supervised strong students can consistently outperform
weak teachers towards the alignment target, leading to a weak-to-strong
generalization phenomenon. However, we are concerned that behind such a
promising phenomenon, whether there exists an issue of weak-to-strong
deception, where strong models may deceive weak models by exhibiting
well-aligned in areas known to weak models but producing misaligned behaviors
in cases weak models do not know. We then take an initial step towards
exploring this security issue in a specific but realistic multi-objective
alignment case, where there may be some alignment targets conflicting with each
other (e.g., helpfulness v.s. harmlessness). Such a conflict is likely to cause
strong models to deceive weak models in one alignment dimension to gain high
reward in other alignment dimension. Our experiments on both the reward
modeling task and the preference optimization scenario indicate: (1) the
weak-to-strong deception exists; (2) the deception phenomenon may intensify as
the capability gap between weak and strong models increases. We also discuss
potential solutions and find bootstrapping with an intermediate model can
mitigate the deception to some extent. Our work highlights the urgent need to
pay more attention to the true reliability of superalignment.Summary
AI-Generated Summary