マージングはジャイルブレイク攻撃に対する自己批判を改善する
Merging Improves Self-Critique Against Jailbreak Attacks
June 11, 2024
著者: Victor Gallego
cs.AI
要旨
大規模言語モデル(LLM)の敵対的操作(例:ジェイルブレイク攻撃)に対する頑健性は、依然として重要な課題である。本研究では、LLMの自己批判能力を強化し、さらに浄化された合成データを用いて微調整を行うアプローチを提案する。これには、外部の批評モデルを追加し、それを元のモデルと統合することで、自己批判能力を強化し、LLMの敵対的プロンプトに対する応答の頑健性を向上させる。我々の結果は、統合と自己批判を組み合わせることで、攻撃者の成功率を大幅に低減できることを示しており、ジェイルブレイク攻撃に対する有望な防御メカニズムを提供するものである。コード、データ、およびモデルはhttps://github.com/vicgalle/merging-self-critique-jailbreaksで公開されている。
English
The robustness of large language models (LLMs) against adversarial
manipulations, such as jailbreak attacks, remains a significant challenge. In
this work, we propose an approach that enhances the self-critique capability of
the LLM and further fine-tunes it over sanitized synthetic data. This is done
with the addition of an external critic model that can be merged with the
original, thus bolstering self-critique capabilities and improving the
robustness of the LLMs response to adversarial prompts. Our results demonstrate
that the combination of merging and self-critique can reduce the attack success
rate of adversaries significantly, thus offering a promising defense mechanism
against jailbreak attacks. Code, data and models released at
https://github.com/vicgalle/merging-self-critique-jailbreaks .Summary
AI-Generated Summary