ChatPaper.aiChatPaper

Хэшированный водяной знак как фильтр: защита от подделки и перезаписи в весовых водяных знаках нейронных сетей

Hashed Watermark as a Filter: Defeating Forging and Overwriting Attacks in Weight-based Neural Network Watermarking

July 15, 2025
Авторы: Yuan Yao, Jin Song, Jian Jin
cs.AI

Аннотация

Как ценные цифровые активы, глубокие нейронные сети требуют надежной защиты прав собственности, что делает водяные знаки для нейронных сетей (Neural Network Watermarking, NNW) перспективным решением. Среди различных подходов к NNW методы, основанные на весах, предпочтительны благодаря своей простоте и практичности; однако они остаются уязвимыми к атакам подделки и перезаписи. Для решения этих проблем мы предлагаем NeuralMark — надежный метод, основанный на хэшированном фильтре водяного знака. В частности, мы используем хэш-функцию для генерации необратимого бинарного водяного знака из секретного ключа, который затем применяется в качестве фильтра для выбора параметров модели для внедрения. Этот дизайн искусно связывает параметры внедрения с хэшированным водяным знаком, обеспечивая надежную защиту от атак подделки и перезаписи. Также используется усредняющий пулинг для сопротивления атакам тонкой настройки и обрезки. Кроме того, метод может быть легко интегрирован в различные архитектуры нейронных сетей, обеспечивая широкую применимость. Теоретически мы анализируем его границы безопасности. Эмпирически мы подтверждаем его эффективность и устойчивость на 13 различных архитектурах, включая сверточные сети и трансформеры, охватывая пять задач классификации изображений и одну задачу генерации текста. Исходные коды доступны по адресу https://github.com/AIResearch-Group/NeuralMark.
English
As valuable digital assets, deep neural networks necessitate robust ownership protection, positioning neural network watermarking (NNW) as a promising solution. Among various NNW approaches, weight-based methods are favored for their simplicity and practicality; however, they remain vulnerable to forging and overwriting attacks. To address those challenges, we propose NeuralMark, a robust method built around a hashed watermark filter. Specifically, we utilize a hash function to generate an irreversible binary watermark from a secret key, which is then used as a filter to select the model parameters for embedding. This design cleverly intertwines the embedding parameters with the hashed watermark, providing a robust defense against both forging and overwriting attacks. An average pooling is also incorporated to resist fine-tuning and pruning attacks. Furthermore, it can be seamlessly integrated into various neural network architectures, ensuring broad applicability. Theoretically, we analyze its security boundary. Empirically, we verify its effectiveness and robustness across 13 distinct Convolutional and Transformer architectures, covering five image classification tasks and one text generation task. The source codes are available at https://github.com/AIResearch-Group/NeuralMark.
PDF01July 16, 2025