Marca d'Água Hash como Filtro: Derrotando Ataques de Falsificação e Sobrescrita em Marcação de Redes Neurais Baseada em Pesos
Hashed Watermark as a Filter: Defeating Forging and Overwriting Attacks in Weight-based Neural Network Watermarking
July 15, 2025
Autores: Yuan Yao, Jin Song, Jian Jin
cs.AI
Resumo
Como ativos digitais valiosos, as redes neurais profundas exigem proteção robusta de propriedade, posicionando a marca d'água em redes neurais (NNW) como uma solução promissora. Entre as diversas abordagens de NNW, os métodos baseados em pesos são preferidos por sua simplicidade e praticidade; no entanto, eles permanecem vulneráveis a ataques de falsificação e sobrescrita. Para enfrentar esses desafios, propomos o NeuralMark, um método robusto construído em torno de um filtro de marca d'água com hash. Especificamente, utilizamos uma função de hash para gerar uma marca d'água binária irreversível a partir de uma chave secreta, que é então usada como filtro para selecionar os parâmetros do modelo para incorporação. Esse projeto entrelaça habilmente os parâmetros de incorporação com a marca d'água com hash, fornecendo uma defesa robusta contra ataques de falsificação e sobrescrita. Um pooling médio também é incorporado para resistir a ataques de ajuste fino e poda. Além disso, ele pode ser integrado de forma contínua em várias arquiteturas de redes neurais, garantindo ampla aplicabilidade. Teoricamente, analisamos seu limite de segurança. Empiricamente, verificamos sua eficácia e robustez em 13 arquiteturas distintas de Convolucionais e Transformers, abrangendo cinco tarefas de classificação de imagens e uma tarefa de geração de texto. Os códigos-fonte estão disponíveis em https://github.com/AIResearch-Group/NeuralMark.
English
As valuable digital assets, deep neural networks necessitate robust ownership
protection, positioning neural network watermarking (NNW) as a promising
solution. Among various NNW approaches, weight-based methods are favored for
their simplicity and practicality; however, they remain vulnerable to forging
and overwriting attacks. To address those challenges, we propose NeuralMark, a
robust method built around a hashed watermark filter. Specifically, we utilize
a hash function to generate an irreversible binary watermark from a secret key,
which is then used as a filter to select the model parameters for embedding.
This design cleverly intertwines the embedding parameters with the hashed
watermark, providing a robust defense against both forging and overwriting
attacks. An average pooling is also incorporated to resist fine-tuning and
pruning attacks. Furthermore, it can be seamlessly integrated into various
neural network architectures, ensuring broad applicability. Theoretically, we
analyze its security boundary. Empirically, we verify its effectiveness and
robustness across 13 distinct Convolutional and Transformer architectures,
covering five image classification tasks and one text generation task. The
source codes are available at https://github.com/AIResearch-Group/NeuralMark.