SEAL : Empreintes digitales en boîte blanche entrelacées sur une adaptation de rang faible
SEAL: Entangled White-box Watermarks on Low-Rank Adaptation
January 16, 2025
Auteurs: Giyeong Oh, Saejin Kim, Woohyun Cho, Sangkyu Lee, Jiwan Chung, Dokyung Song, Youngjae Yu
cs.AI
Résumé
Récemment, LoRA et ses variantes sont devenues la stratégie de facto pour l'entraînement et le partage de versions spécifiques de tâches de grands modèles pré-entraînés, grâce à leur efficacité et leur simplicité. Cependant, la question de la protection des droits d'auteur pour les poids LoRA, en particulier à travers des techniques basées sur les filigranes, reste peu explorée. Pour combler cette lacune, nous proposons SEAL (SEcure wAtermarking on LoRA weights), le filigrane universel en boîte blanche pour LoRA. SEAL intègre une matrice secrète et non entraînable entre les poids entraînables LoRA, servant de passeport pour revendiquer la propriété. SEAL enchevêtre ensuite le passeport avec les poids LoRA par l'entraînement, sans perte supplémentaire pour l'enchevêtrement, et distribue les poids affinés après avoir caché le passeport. Lors de l'application de SEAL, nous n'avons observé aucune dégradation des performances dans les tâches de raisonnement de bon sens, d'ajustement d'instructions textuelles/visuelles et de synthèse texte-image. Nous démontrons que SEAL est robuste contre diverses attaques connues : suppression, obfuscation et attaques d'ambiguïté.
English
Recently, LoRA and its variants have become the de facto strategy for
training and sharing task-specific versions of large pretrained models, thanks
to their efficiency and simplicity. However, the issue of copyright protection
for LoRA weights, especially through watermark-based techniques, remains
underexplored. To address this gap, we propose SEAL (SEcure wAtermarking on
LoRA weights), the universal whitebox watermarking for LoRA. SEAL embeds a
secret, non-trainable matrix between trainable LoRA weights, serving as a
passport to claim ownership. SEAL then entangles the passport with the LoRA
weights through training, without extra loss for entanglement, and distributes
the finetuned weights after hiding the passport. When applying SEAL, we
observed no performance degradation across commonsense reasoning,
textual/visual instruction tuning, and text-to-image synthesis tasks. We
demonstrate that SEAL is robust against a variety of known attacks: removal,
obfuscation, and ambiguity attacks.Summary
AI-Generated Summary