ChatPaper.aiChatPaper

Gehashte Watermerk als Filter: Het Verslaan van Vervalsings- en Overschrijvingsaanvallen in Gewichtsgebaseerde Neurale Netwerkwatermerken

Hashed Watermark as a Filter: Defeating Forging and Overwriting Attacks in Weight-based Neural Network Watermarking

July 15, 2025
Auteurs: Yuan Yao, Jin Song, Jian Jin
cs.AI

Samenvatting

Als waardevolle digitale activa vereisen diepe neurale netwerken robuuste eigendomsbescherming, waardoor neurale netwerk-watermerktechnologie (NNW) een veelbelovende oplossing vormt. Onder de verschillende NNW-benaderingen worden gewichtsgebaseerde methoden gewaardeerd vanwege hun eenvoud en praktische bruikbaarheid; ze blijven echter kwetsbaar voor vervalsings- en overschrijvingsaanvallen. Om deze uitdagingen aan te pakken, stellen we NeuralMark voor, een robuuste methode gebouwd rond een gehasht watermerkfilter. Specifiek gebruiken we een hashfunctie om een onomkeerbaar binair watermerk te genereren vanuit een geheime sleutel, dat vervolgens wordt gebruikt als filter om de modelparameters voor inbedding te selecteren. Dit ontwerp verweeft op ingenieuze wijze de inbeddingsparameters met het gehashte watermerk, wat een robuuste verdediging biedt tegen zowel vervalsings- als overschrijvingsaanvallen. Een gemiddelde pooling wordt ook geïntegreerd om aanvallen door fine-tuning en pruning te weerstaan. Bovendien kan het naadloos worden geïntegreerd in verschillende neurale netwerkarchitecturen, wat een brede toepasbaarheid garandeert. Theoretisch analyseren we de beveiligingsgrens. Empirisch verifiëren we de effectiviteit en robuustheid over 13 verschillende Convolutional- en Transformer-architecturen, waarbij vijf beeldclassificatietaken en één tekstgeneratietaak worden bestreken. De broncodes zijn beschikbaar op https://github.com/AIResearch-Group/NeuralMark.
English
As valuable digital assets, deep neural networks necessitate robust ownership protection, positioning neural network watermarking (NNW) as a promising solution. Among various NNW approaches, weight-based methods are favored for their simplicity and practicality; however, they remain vulnerable to forging and overwriting attacks. To address those challenges, we propose NeuralMark, a robust method built around a hashed watermark filter. Specifically, we utilize a hash function to generate an irreversible binary watermark from a secret key, which is then used as a filter to select the model parameters for embedding. This design cleverly intertwines the embedding parameters with the hashed watermark, providing a robust defense against both forging and overwriting attacks. An average pooling is also incorporated to resist fine-tuning and pruning attacks. Furthermore, it can be seamlessly integrated into various neural network architectures, ensuring broad applicability. Theoretically, we analyze its security boundary. Empirically, we verify its effectiveness and robustness across 13 distinct Convolutional and Transformer architectures, covering five image classification tasks and one text generation task. The source codes are available at https://github.com/AIResearch-Group/NeuralMark.
PDF01July 16, 2025