Filigrana Hash come Filtro: Contrastare Attacchi di Falsificazione e Sovrascrittura nel Watermarking di Reti Neurali Basato sui Pesi
Hashed Watermark as a Filter: Defeating Forging and Overwriting Attacks in Weight-based Neural Network Watermarking
July 15, 2025
Autori: Yuan Yao, Jin Song, Jian Jin
cs.AI
Abstract
Come risorse digitali di valore, le reti neurali profonde necessitano di una robusta protezione della proprietà, posizionando il watermarking delle reti neurali (NNW) come una soluzione promettente. Tra i vari approcci NNW, i metodi basati sui pesi sono preferiti per la loro semplicità e praticità; tuttavia, rimangono vulnerabili ad attacchi di falsificazione e sovrascrittura. Per affrontare queste sfide, proponiamo NeuralMark, un metodo robusto costruito attorno a un filtro di watermark basato su hash. Nello specifico, utilizziamo una funzione di hash per generare un watermark binario irreversibile da una chiave segreta, che viene poi utilizzato come filtro per selezionare i parametri del modello da incorporare. Questo design intreccia abilmente i parametri di incorporamento con il watermark hashato, fornendo una difesa robusta contro sia gli attacchi di falsificazione che di sovrascrittura. È stato anche incorporato un pooling medio per resistere ad attacchi di fine-tuning e pruning. Inoltre, può essere integrato senza problemi in varie architetture di reti neurali, garantendo un'ampia applicabilità. Teoricamente, analizziamo il suo confine di sicurezza. Empiricamente, ne verifichiamo l'efficacia e la robustezza su 13 distinte architetture convoluzionali e di Transformer, coprendo cinque task di classificazione di immagini e un task di generazione di testo. I codici sorgenti sono disponibili all'indirizzo https://github.com/AIResearch-Group/NeuralMark.
English
As valuable digital assets, deep neural networks necessitate robust ownership
protection, positioning neural network watermarking (NNW) as a promising
solution. Among various NNW approaches, weight-based methods are favored for
their simplicity and practicality; however, they remain vulnerable to forging
and overwriting attacks. To address those challenges, we propose NeuralMark, a
robust method built around a hashed watermark filter. Specifically, we utilize
a hash function to generate an irreversible binary watermark from a secret key,
which is then used as a filter to select the model parameters for embedding.
This design cleverly intertwines the embedding parameters with the hashed
watermark, providing a robust defense against both forging and overwriting
attacks. An average pooling is also incorporated to resist fine-tuning and
pruning attacks. Furthermore, it can be seamlessly integrated into various
neural network architectures, ensuring broad applicability. Theoretically, we
analyze its security boundary. Empirically, we verify its effectiveness and
robustness across 13 distinct Convolutional and Transformer architectures,
covering five image classification tasks and one text generation task. The
source codes are available at https://github.com/AIResearch-Group/NeuralMark.