ウイルス:ガードレールモデレーションを迂回する大規模言語モデルへの有害なファインチューニング攻撃
Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation
January 29, 2025
著者: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu
cs.AI
要旨
最近の研究によると、大規模言語モデル(LLM)は有害な微調整攻撃に対して脆弱であり、モデルはわずかな有害サンプルで微調整した後に安全な整合性能力を失います。リスク軽減のために、通常、微調整の前に有害なサンプルをフィルタリングするためにガードレールが使用されます。本論文では、新しいレッドチーム手法を設計することで、データのフィルタリングにおいて単にガードレールに依存することは信頼性に欠けることを示します。提案された攻撃手法であるVirusは、わずかな有害データをわずかに変更することで、ガードレールのモデレーションを容易にバイパスします。実験結果によると、Virusによって最適化された有害データは、100\%の漏洩率までガードレールによって検出されず、同時に優れた攻撃性能を達成します。最後に、本論文を通じて伝えたい主要メッセージは、ガードレールのモデレーションを有害な微調整攻撃に対する最後の手段と考えることは無謀であり、事前学習されたLLMの固有の安全性問題を解決できないことです。当該コードはhttps://github.com/git-disl/Virus で入手可能です。
English
Recent research shows that Large Language Models (LLMs) are vulnerable to
harmful fine-tuning attacks -- models lose their safety alignment ability after
fine-tuning on a few harmful samples. For risk mitigation, a guardrail is
typically used to filter out harmful samples before fine-tuning. By designing a
new red-teaming method, we in this paper show that purely relying on the
moderation guardrail for data filtration is not reliable. Our proposed attack
method, dubbed Virus, easily bypasses the guardrail moderation by slightly
modifying the harmful data. Experimental results show that the harmful data
optimized by Virus is not detectable by the guardrail with up to 100\% leakage
ratio, and can simultaneously achieve superior attack performance. Finally, the
key message we want to convey through this paper is that: it is
reckless to consider guardrail moderation as a clutch at straws towards harmful
fine-tuning attack, as it cannot solve the inherent safety issue of the
pre-trained LLMs. Our code is available at https://github.com/git-disl/Virus