Marca de Agua Hasheada como Filtro: Derrotando Ataques de Falsificación y Sobrescritura en la Marcación de Redes Neuronales Basada en Pesos

Resumen

Como valiosos activos digitales, las redes neuronales profundas requieren una protección robusta de la propiedad, posicionando el marcado de agua en redes neuronales (NNW, por sus siglas en inglés) como una solución prometedora. Entre los diversos enfoques de NNW, los métodos basados en pesos son preferidos por su simplicidad y practicidad; sin embargo, siguen siendo vulnerables a ataques de falsificación y sobrescritura. Para abordar estos desafíos, proponemos NeuralMark, un método robusto construido alrededor de un filtro de marca de agua con hash. Específicamente, utilizamos una función hash para generar una marca de agua binaria irreversible a partir de una clave secreta, la cual se utiliza como filtro para seleccionar los parámetros del modelo en los que se incrustará. Este diseño entrelaza hábilmente los parámetros de incrustación con la marca de agua con hash, proporcionando una defensa robusta contra ataques de falsificación y sobrescritura. También se incorpora un promedio de agrupación (average pooling) para resistir ataques de ajuste fino y poda. Además, puede integrarse sin problemas en diversas arquitecturas de redes neuronales, asegurando una amplia aplicabilidad. Teóricamente, analizamos su límite de seguridad. Empíricamente, verificamos su efectividad y robustez en 13 arquitecturas distintas de Convolucional y Transformer, abarcando cinco tareas de clasificación de imágenes y una tarea de generación de texto. Los códigos fuente están disponibles en https://github.com/AIResearch-Group/NeuralMark.

English

As valuable digital assets, deep neural networks necessitate robust ownership protection, positioning neural network watermarking (NNW) as a promising solution. Among various NNW approaches, weight-based methods are favored for their simplicity and practicality; however, they remain vulnerable to forging and overwriting attacks. To address those challenges, we propose NeuralMark, a robust method built around a hashed watermark filter. Specifically, we utilize a hash function to generate an irreversible binary watermark from a secret key, which is then used as a filter to select the model parameters for embedding. This design cleverly intertwines the embedding parameters with the hashed watermark, providing a robust defense against both forging and overwriting attacks. An average pooling is also incorporated to resist fine-tuning and pruning attacks. Furthermore, it can be seamlessly integrated into various neural network architectures, ensuring broad applicability. Theoretically, we analyze its security boundary. Empirically, we verify its effectiveness and robustness across 13 distinct Convolutional and Transformer architectures, covering five image classification tasks and one text generation task. The source codes are available at https://github.com/AIResearch-Group/NeuralMark.

Marca de Agua Hasheada como Filtro: Derrotando Ataques de Falsificación y Sobrescritura en la Marcación de Redes Neuronales Basada en Pesos

Hashed Watermark as a Filter: Defeating Forging and Overwriting Attacks in Weight-based Neural Network Watermarking

Resumen

Support