SEAL: Связанные водяные знаки в белом ящике при адаптации низкого ранга
SEAL: Entangled White-box Watermarks on Low-Rank Adaptation
January 16, 2025
Авторы: Giyeong Oh, Saejin Kim, Woohyun Cho, Sangkyu Lee, Jiwan Chung, Dokyung Song, Youngjae Yu
cs.AI
Аннотация
Недавно LoRA и его варианты стали де-факто стратегией для обучения и обмена версиями моделей большого предварительно обученного размера, специфичных для задач, благодаря их эффективности и простоте. Однако проблема защиты авторских прав для весов LoRA, особенно с использованием техник на основе водяных знаков, остается недостаточно исследованной. Для решения этого пробела мы предлагаем SEAL (SEcure wAtermarking on LoRA weights), универсальную белобоксовую технологию водяных знаков для LoRA. SEAL встраивает секретную, необучаемую матрицу между обучаемыми весами LoRA, служащую паспортом для утверждения прав на владение. Затем SEAL запутывает паспорт с весами LoRA в процессе обучения, без дополнительных потерь для запутывания, и распространяет донастроенные веса после скрытия паспорта. При применении SEAL мы не обнаружили деградации производительности на задачах здравого смысла, настройки текстовых/визуальных инструкций и синтеза текста в изображение. Мы демонстрируем, что SEAL устойчив к различным известным атакам: удалению, затруднению и амбигуитету.
English
Recently, LoRA and its variants have become the de facto strategy for
training and sharing task-specific versions of large pretrained models, thanks
to their efficiency and simplicity. However, the issue of copyright protection
for LoRA weights, especially through watermark-based techniques, remains
underexplored. To address this gap, we propose SEAL (SEcure wAtermarking on
LoRA weights), the universal whitebox watermarking for LoRA. SEAL embeds a
secret, non-trainable matrix between trainable LoRA weights, serving as a
passport to claim ownership. SEAL then entangles the passport with the LoRA
weights through training, without extra loss for entanglement, and distributes
the finetuned weights after hiding the passport. When applying SEAL, we
observed no performance degradation across commonsense reasoning,
textual/visual instruction tuning, and text-to-image synthesis tasks. We
demonstrate that SEAL is robust against a variety of known attacks: removal,
obfuscation, and ambiguity attacks.Summary
AI-Generated Summary