Filigrana Hash come Filtro: Contrastare Attacchi di Falsificazione e Sovrascrittura nel Watermarking di Reti Neurali Basato sui Pesi

Abstract

Come risorse digitali di valore, le reti neurali profonde necessitano di una robusta protezione della proprietà, posizionando il watermarking delle reti neurali (NNW) come una soluzione promettente. Tra i vari approcci NNW, i metodi basati sui pesi sono preferiti per la loro semplicità e praticità; tuttavia, rimangono vulnerabili ad attacchi di falsificazione e sovrascrittura. Per affrontare queste sfide, proponiamo NeuralMark, un metodo robusto costruito attorno a un filtro di watermark basato su hash. Nello specifico, utilizziamo una funzione di hash per generare un watermark binario irreversibile da una chiave segreta, che viene poi utilizzato come filtro per selezionare i parametri del modello da incorporare. Questo design intreccia abilmente i parametri di incorporamento con il watermark hashato, fornendo una difesa robusta contro sia gli attacchi di falsificazione che di sovrascrittura. È stato anche incorporato un pooling medio per resistere ad attacchi di fine-tuning e pruning. Inoltre, può essere integrato senza problemi in varie architetture di reti neurali, garantendo un'ampia applicabilità. Teoricamente, analizziamo il suo confine di sicurezza. Empiricamente, ne verifichiamo l'efficacia e la robustezza su 13 distinte architetture convoluzionali e di Transformer, coprendo cinque task di classificazione di immagini e un task di generazione di testo. I codici sorgenti sono disponibili all'indirizzo https://github.com/AIResearch-Group/NeuralMark.

English

As valuable digital assets, deep neural networks necessitate robust ownership protection, positioning neural network watermarking (NNW) as a promising solution. Among various NNW approaches, weight-based methods are favored for their simplicity and practicality; however, they remain vulnerable to forging and overwriting attacks. To address those challenges, we propose NeuralMark, a robust method built around a hashed watermark filter. Specifically, we utilize a hash function to generate an irreversible binary watermark from a secret key, which is then used as a filter to select the model parameters for embedding. This design cleverly intertwines the embedding parameters with the hashed watermark, providing a robust defense against both forging and overwriting attacks. An average pooling is also incorporated to resist fine-tuning and pruning attacks. Furthermore, it can be seamlessly integrated into various neural network architectures, ensuring broad applicability. Theoretically, we analyze its security boundary. Empirically, we verify its effectiveness and robustness across 13 distinct Convolutional and Transformer architectures, covering five image classification tasks and one text generation task. The source codes are available at https://github.com/AIResearch-Group/NeuralMark.

Filigrana Hash come Filtro: Contrastare Attacchi di Falsificazione e Sovrascrittura nel Watermarking di Reti Neurali Basato sui Pesi

Hashed Watermark as a Filter: Defeating Forging and Overwriting Attacks in Weight-based Neural Network Watermarking

Abstract

Support