SEAL: 低ランク適応における入り組んだホワイトボックスウォーターマーク
SEAL: Entangled White-box Watermarks on Low-Rank Adaptation
January 16, 2025
著者: Giyeong Oh, Saejin Kim, Woohyun Cho, Sangkyu Lee, Jiwan Chung, Dokyung Song, Youngjae Yu
cs.AI
要旨
最近、LoRAおよびその派生物は、効率性と簡便さから、大規模な事前学習モデルのタスク固有バージョンを訓練および共有するための事実上の戦略となっています。しかし、特に浸水型技術を通じたLoRAウェイトの著作権保護の問題は、未だに十分に探求されていません。このギャップを埋めるために、LoRA用のユニバーサルなホワイトボックス浸水型技術であるSEAL(SEcure wAtermarking on LoRA weights)を提案します。SEALは、訓練可能なLoRAウェイト間に秘密の訓練不可行列を埋め込み、所有権を主張するパスポートとして機能します。SEALは、パスポートをLoRAウェイトと訓練を通じて絡み合わせ、絡み合わせのための追加損失なしに、パスポートを隠した後に調整されたウェイトを配布します。SEALを適用する際、常識的推論、テキスト/ビジュアル指示調整、テキストから画像への合成タスクにおいて性能の低下は観察されませんでした。SEALは、削除、曖昧化、曖昧攻撃に対しても様々な既知の攻撃に対して強固であることを示します。
English
Recently, LoRA and its variants have become the de facto strategy for
training and sharing task-specific versions of large pretrained models, thanks
to their efficiency and simplicity. However, the issue of copyright protection
for LoRA weights, especially through watermark-based techniques, remains
underexplored. To address this gap, we propose SEAL (SEcure wAtermarking on
LoRA weights), the universal whitebox watermarking for LoRA. SEAL embeds a
secret, non-trainable matrix between trainable LoRA weights, serving as a
passport to claim ownership. SEAL then entangles the passport with the LoRA
weights through training, without extra loss for entanglement, and distributes
the finetuned weights after hiding the passport. When applying SEAL, we
observed no performance degradation across commonsense reasoning,
textual/visual instruction tuning, and text-to-image synthesis tasks. We
demonstrate that SEAL is robust against a variety of known attacks: removal,
obfuscation, and ambiguity attacks.Summary
AI-Generated Summary