ChatPaper.aiChatPaper

整列されたニューラルネットワークは敵対的に整列されているか?

Are aligned neural networks adversarially aligned?

June 26, 2023
著者: Nicholas Carlini, Milad Nasr, Christopher A. Choquette-Choo, Matthew Jagielski, Irena Gao, Anas Awadalla, Pang Wei Koh, Daphne Ippolito, Katherine Lee, Florian Tramer, Ludwig Schmidt
cs.AI

要旨

大規模言語モデルは現在、その開発者の目標、すなわち「役に立ち、無害である」ことに合わせて調整されています。これらのモデルは、ユーザーの質問に対して役立つ回答をする一方で、害を及ぼす可能性のあるリクエストには応じないように設計されています。しかし、敵対的なユーザーは、この調整を回避する入力を構築することができます。本研究では、最悪のケースの入力(敵対的サンプル)を構築する敵対的なユーザーと相互作用する場合でも、これらのモデルがどの程度調整された状態を維持するかを調査します。これらの入力は、モデルが本来禁止されている有害なコンテンツを出力するように設計されています。既存のNLPベースの最適化攻撃は、調整されたテキストモデルを確実に攻撃するには不十分であることを示します。現在のNLPベースの攻撃が失敗した場合でも、力ずくで敵対的入力を発見することができます。その結果、現在の攻撃の失敗は、調整されたテキストモデルが敵対的入力の下でも調整された状態を維持する証拠と見なすべきではありません。 しかし、最近の大規模MLモデルのトレンドは、ユーザーが提供した画像が生成されるテキストに影響を与えるマルチモーダルモデルです。これらのモデルは、入力画像の敵対的摂動を通じて、任意の非調整行動を実行するように簡単に攻撃できることを示します。改善されたNLP攻撃が、テキストのみのモデルに対して同じレベルの敵対的制御を実証する可能性があると推測します。
English
Large language models are now tuned to align with the goals of their creators, namely to be "helpful and harmless." These models should respond helpfully to user questions, but refuse to answer requests that could cause harm. However, adversarial users can construct inputs which circumvent attempts at alignment. In this work, we study to what extent these models remain aligned, even when interacting with an adversarial user who constructs worst-case inputs (adversarial examples). These inputs are designed to cause the model to emit harmful content that would otherwise be prohibited. We show that existing NLP-based optimization attacks are insufficiently powerful to reliably attack aligned text models: even when current NLP-based attacks fail, we can find adversarial inputs with brute force. As a result, the failure of current attacks should not be seen as proof that aligned text models remain aligned under adversarial inputs. However the recent trend in large-scale ML models is multimodal models that allow users to provide images that influence the text that is generated. We show these models can be easily attacked, i.e., induced to perform arbitrary un-aligned behavior through adversarial perturbation of the input image. We conjecture that improved NLP attacks may demonstrate this same level of adversarial control over text-only models.
PDF50December 15, 2024